เวลานึกถึงไวน์ที่ดีน่าจะอธิบายออกมาได้ประมาณนี้ “ไวน์ที่มีรสชาติดีควรมีความเข้มข้นแต่ไม่หนัก มีแอลกอฮอล์ปริมาณสูง แต่ไม่มีความเป็นกรดและมีแทนนินมากเกินไป มีรสชาติคล้ายเชอรี่สีดำแต่มีความนุ่มนวล” ดอกไม้และผลไม้จะเป็นตัวแทนในการบรรยายถึงไวน์เพื่อให้ผู้ดื่มได้เข้าใจถึงรสชาติของไวน์แก้วนั้น คำพูดเหล่านั้นจะเป็นการพิจารณาเปรียบเปรยให้เห็นถึงว่าการเปลี่ยนผลไม้มาเป็นไวน์นั้นคือศิลปะชั้นดีอย่างหนึ่ง
รสชาติต่างๆนั้นเกิดจากการเปลี่ยนองค์ประกอบทางเคมีที่มีผลต่อรสชาติของไวน์ ดังนั้นการบรรยายถึงรสชาติของไวน์ในลักษณะงานศิลปะยังเป็นศาสตร์อย่างหนึ่งและตรงนี้เองที่ตัวถดถอยเชิงสถิติ (Statistical regression) สามารถช่วยให้การบรรยายถึงรสชาตินั้นดียิ่งขึ้น
การใช้การถดถอยเชิงสถิติในการสร้างตัวแบบรสชาติของไวน์
รสชาติไวน์เป็นอย่างไร
เรารู้ว่าไวน์มีองค์ประกอบทางเคมีที่ประกอบขึ้นจากผลไม้และเครื่องเทศ ดังนั้นเพื่อให้เกิดความเข้าใจเราจึงใช้คำบรรยายมาอธิบายรสชาติต่างๆ องค์ประกอบทางเคมีต่างๆซึ่งเป็นตัวที่ทำให้เรารับรู้รสชาติว่า หวาน ขม หรือ เปรี้ยว
ปัจจัยที่เป็นเรื่องจำเป็นในการผลิตไวน์ให้ดีที่ขาดไม่ได้มี 3 สิ่งคือ องุ่นที่ดีมีคุณภาพ ขั้นตอนการผลิตไวน์ และการหมักบ่มไวน์ ในแต่ละขั้นตอนของการทำไวน์จะส่งผลต่อรสชาติของไวน์
รสชาติที่เกิดขึ้นมาจากการเปลี่ยนแปลงสารเคมีที่อยู่ในไวน์ โดยเกิดขึ้นในแต่ละขั้นตอนการทำไวน์ รสชาติต่างๆมาจากองุ่นที่ใช้มาผลิตและกระบวนการผลิตไวน์ ซึ่งการจัดการกับปัจจัยทั้งสองนี้จะทำให้ได้ไวน์ที่มีรสชาติดีขึ้น
รสชาติของไวน์อาจจะดูเหมือนไม่มีอยู่จริงแต่ว่ามันมาจากองค์ประกอบของสารเคมีที่เกิดขึ้น ซึ่งการบรรยายถึงไวน์ในเชิงงานศิลปะ จริงๆแล้วมันคือวิทยาศาสตร์ ความเป็นกรดทำให้เกิดรสชาติเปรี้ยว แอลกอฮอล์ส่งผลต่อรสชาติด้วยเช่นกัน ซึ่งปริมาณแอทานอลทำให้เกิดรสขม หวาน และ เปรี้ยว ดังนั้นการใช้องค์ความรู้เพื่อให้ได้ไวน์รสชาติตามที่ต้องการจะต้องทำความเข้าใจก่อนว่าขั้นตอนการผลิตนั้นส่งผลต่อองค์ประกอบเคมีนี้อย่างไร
การระบุไวน์ที่ดีจากไวน์ที่แย่
แน่นอนนักชิมไวน์แต่ละคนย่อมให้ผลในการระบุรสชาติไวน์แตกต่างกัน (De Gustibus non est disputandum : “ในเรื่องของรสชาติ เราจะไม่มีข้อถกเถียงกัน”) อย่างไรก็ตามบางครั้งเราก็สามารถเปรียบเทียบได้ว่าไวน์ใดดีกว่า และโดยทั่วไปก็สามารถแยกแยะไวน์ที่ดีจากไวน์ที่แย่ได้
กรณีนี้จะเป็นกรณีที่ต้องมีการทำความเข้าใจกับเหตุการณ์ที่มีความแตกต่างและสิ่งรบกวนที่เป็นส่วนสำคัญในการศึกษา ตัวแบบทางสถิติจะเป็นเครื่องมือที่มีประสิทธิผลอย่างมากในการระบุปัจจัยสำคัญที่โดดเด่นในเหตุการณ์นั้นๆว่าคืออะไร
ในบทความนี้จึงเป็นเรื่องราวเกี่ยวกับข้อมูลของรสชาติไวน์ และเทคนิคของการสร้างตัวแบบที่แสดงให้เห็นผลที่ตัวแปรมีส่วนและสำคัญต่อสิ่งที่ศึกษาซึ่งเป็นสิ่งที่นักชิมไวน์ใช้ในประสบการณ์ของตัวเอง
การวิเคราะห์จะทำให้เห็นภาพว่าแม้แต่เรื่องของรสชาติไวน์ก็สามารถสร้างตัวแบบมาประเมินหรือวัดได้ถ้าเราเลือกตัวแบบการวิเคราะห์อย่างเหมาะสม
เราใช้ตัวสถิติเพื่อแสดงให้เห็นว่าไวน์มีองค์ประกอบเคมีอะไรบ้าง การมีปริมาณซัลเฟตหรือคอลไรด์ที่มีมากกว่าจะทำให้รสชาติดีขึ้นหรือไม่ ซึ่งจากการทำความเข้าใจเรื่องนี้จะทำให้การผลิตไวน์ได้รสชาติดีขึ้น เราจะทำการพิจารณาตัวแปรที่จะเป็นตัวแปรทำนาย เช่น ความเป็นกรด ปริมาณซัลเฟอร์ไดออกไซด์ และเปอร์เซ็นต์แอลกอฮอล์
ในบทความนี้ยังเป็นการแสดงให้เห็นว่า Minitab 19 มีการเพิ่มคำสั่งทำงานใหม่อะไรบ้าง และถ้าคุณอยากลองใช้งาน Minitab 19 ด้วยตนเอง คุณสามารถดาวน์โหลด Minitab 19 ใช้ฟรีได้ 30 วัน
การทดสอบรสชาติ
ในศาสตร์ของการทำไวน์จะมีการประเมินรสชาติของไวน์ขาวและแดงในเชิงคุณภาพเป็นสองแบบ คือ ดี (1) และ แย่ (0) ซึ่งเป้าหมายของเราในการระบุตัวแปรต่างๆเพื่อดูว่ามีผลอย่างมีนัยสำคัญต่อคุณภาพของไวน์หรือไม่
การใช้ตัวแบบการถดถอยในการวิเคราะห์ข้อมูลแอตทริบิวต์รสชาติของไวน์
กรณีนี้การใช้เพียงกราฟอาจไม่เพียงพอในการระบุว่าตัวแปรใดมีความสำคัญ ทั้งนี้เพราะว่าข้อมูลมีความซับซ้อนและมีความผันแปรอยู่มาก การวิเคราะห์ตัวแบบถดถอยเพื่อทำให้เห็นปัจจัยที่มีหลายตัวที่ส่งผลต่อผลลัพธ์ น่าจะเป็นวิธีที่ใช้ดูตัวแปรที่ส่งผลต่อรสชาติของไวน์ได้ดีที่สุด
อย่างไรก็ตามคณะผู้ชิมรสชาติไวน์ทำการประเมินไวน์และจัดลำดับคุณภาพจากสูงไปต่ำ ซึ่งเท่ากับเราจะได้ข้อมูลแบบไบนารี่มา และเราจะต้องมีการดำเนินการต่อ การใช้ตัวแบบถดถอยมาตรฐานที่ใช้ ANOVA ในการวิเคราะห์ข้อมูลแบบไบนารี่อาจจะไม่ใช่ทางเลือกที่ดี
เพราะว่าข้อมูลไบนารี่จะเป็นตัวแปรที่มีการแจกแจงแบบไบโนเมียลมากกว่าการแจกแจงแบบปกติ ที่มีเส้นโค้งการแจกแจงแบบโค้งระฆังคว่ำ ซึ่งการใช้ตัวแบบถดถอยมาตรฐานจะทำให้ผลการทำนายความน่าจะเป็นมีค่าติดลบหรือมากกว่า 100% เราอาจจะได้ตัวแบบที่มีความซับซ้อนเกินไป ได้ความสัมพันธ์ของ interaction ของปัจจัยที่มีอาจจะดูเหมือนมีนัยสำคัญ และความผันแปรของข้อมูลไบนารี่มีลักษณะไม่คงที่
แต่เรามีทางออกที่ง่ายกว่า เนื่องจากข้อมูลที่เป็นไบนารี่ เราจะเลือกใช้เครื่องมือที่เหมาะสมสำหรับข้อมูลแบบนี้ ซึ่งคือ การวิเคราะห์โลจิสติคแบบทวิ (binary logistic regression)
การวิเคราะห์การถดถอยแบบรูปแบบเต็ม
ในการวิเคราะห์การถดถอยเราจะเริ่มที่ตัวแบบที่มีรูปแบบเต็ม ซึ่งจะรวบรวมปัจจัยที่คาดว่าจะมีนัยสำคัญในข้อมูลไว้ทั้งหมด ซึ่งกรณีนี้เราจะเริ่มการวิเคราะห์ตัวแปรทุกตัวรวมไปถึง interaction ระหว่างตัวแปร ซึ่งรวมไปถึงชนิดของไวน์ด้วย
ในการวิเคราะห์ส่วน interaction ให้ทำการเลือก Stat > Regression > Binary Logistic Regression > Fit Binary Logistic Model > Model > Add interactions
เมื่อทำการเลือกให้มีการวิเคราะห์ interaction ควรที่จะทำการปรับตัวแปรทำนายที่เป็นข้อมูลแบบต่อเนื่องเพื่อหลีกเลี่ยงผลของสเกลของตัวเลขด้วยการเลือก Stat > Regression > Regression > Fit Regression Model > Coding
เราเริ่มจากวิธี stepwise เพื่อทำการสร้างตัวแบบ จะทำการสร้างตัวแบบเป็นขั้นบันไดและกำหนดเซตย่อยจากกลุ่มขนาดใหญ่ๆ ด้วยการใช้คำสั่ง Stat > Regression > Binary Logistic Regression > Fit Binary Logistic Model > Stepwise
เกณฑ์ในที่นำมาใช้กำหนดตัวแปรในขั้นตอนการทำ Stepwise จะใช้วิธีพิจารณาของ Akaike Information Criteria (AIC) วิธีของ AIC จะทำการประมาณค่าจำนวนข้อมูลที่หายไปจากตัวแบบที่กำหนด ซึ่งเป็นค่าสถิติที่ใช้ในการเปรียบเทียบตัวแบบ ตัวแบบที่มีค่า AIC ยิ่งน้อยหมายความว่าตัวแบบนั้นมีความเหมาะสมกับข้อมูล ค่า AIC จะรวมค่าด้านลบที่เพิ่มขึ้นเมื่อจำนวนค่าประมาณของพารามิเตอร์ที่ไม่เกี่ยวข้องกับตัวแบบนำมารวมในตัวแบบ วัตถุประสงค์ของ AIC คือ เพื่อไม่ให้ได้ตัวแบบมีตัวแปรอิสระที่มากเกินไปหรือน้อยเกินไป
เมื่อทำเสร็จทุกขั้นตอนเราจะได้ตัวแบบตามที่อธิบายด้านล่างนี้
ปัจจัยที่ทำให้ไวน์มีรสชาติดี มีทั้งหมด 12 ปัจจัย ซึ่งตัว แบบนี้จะเห็นว่ามีความยากที่จะทำความเข้าใจ แต่ก็แสดงให้เห็นบางอย่างที่จะทำให้เราค้นหาต่อไปได้ว่าปัจจัยตัวไหนที่เกี่ยวข้องหรือทำให้รสชาติของไวน์ได้ดีขึ้น
ค่าสัมประสิทธิ์แบบ coded ซึ่งทำให้เข้าใจตัวแปรง่ายขึ้นว่าตัวแปรใดมีความสำคัญที่สุด
Density เป็นตัวแปรที่มีผลมากที่สุด (ค่าสัมประสิทธิ์เท่ากับ -3.504) ต่อมาคือ Residual Sugar * Types of Wines (มีค่า 2.75 ซึ่งเป็น interaction) และที่มีผลรอง ๆ ลงไปตามลำดับ คือ Fixed acidity (1.33) และ Fixed acidity * Density interaction (1.213)
จากแผนภาพที่แสดง interaction ทำให้เห็นว่า Residual Sugar มีผลต่อคุณภาพของไวน์ โดยเฉพาะกับไวน์ขาว แต่ไม่มีผลกับไวน์แดง
ตอนนี้เรามีตัวแบบที่สามารถระบุปัจจัยที่เกี่ยวข้องกับคุณภาพไวน์ ซึ่งทำให้เราเห็นได้ว่าคุณสมบัติใดบ้างที่มีผลต่อคุณภาพ เช่น จากแผนภาพ main effect ซึ่งเป็นกราฟที่แสดงความสัมพันธ์ระหว่าง fixed acidity กับ ความน่าจะเป็นที่ผลิตไวน์ดี และ density กับ ความน่าจะเป็นที่ผลิตไวน์ดี โดยในแผนภาพสามารถตีความได้ว่า ค่า fixed acidity สูง และ density ต่ำ จะทำให้คุณภาพของไวน์ดีขึ้น
บทสรุป
เมื่อไหร่ก็ตามที่คุณต้องทำความเข้าใจกับสถานการณ์ต่างๆ เช่น การวิเคราะห์ข้อมูล หรือ เมื่อจำนวนตัวแปรอิสระมีจำนวนมากมาย ให้นึกถึง binary logistic regression เพื่อเป็นตัวช่วยในการวิเคราะห์เชิงลึกมากขึ้น คุณสามารถใช้การวิเคราะห์ตามแบบที่เรายกตัวอย่างมานี้ที่เหมือนกับการทดสอบไวน์ แล้วนำมาวิเคราะห์เพื่อดูยอดขายหรือเรื่องการตลาด เพื่อทำให้ความเข้าใจเรื่องความต้องการของลูกค้าและทำให้เห็นปัจจัยที่มีความสำคัญคืออะไร และมันสามารถทำได้จริง เช่นตัวอย่างเรื่องการหาปัจจัยที่มีผลต่อรสชาติไวน์ ซึ่งถือเป็นค่าที่วัดได้ยากตามที่กล่าวมา
คำสั่งที่เพิ่มมาใน MINITAB 19 ที่เราใช้ในการวิเคราะห์ตามบทความนี้คือ การวิเคราะห์ตัวแบบด้วยวิธี stepwise ตามวิธีการแบบ Akaike Information Criteria (AIC)
บทความต้นฉบับ : https://blog.minitab.com/blog/using-statistical-regression-to-model-the-taste-of-wine
เนื้อหาบทความโดยบริษัท Minitab Inc. ประเทศสหรัฐอเมริกา
แปลและเรียบเรียงโดยสุวดี นําพาเจริญ และ ชลทิชา จํารัสพร, บริษัท โซลูชั่น เซ็นเตอร์ จํากัด webadmin@solutioncenterminitab.com
บทความนี้เกิดจากการเขียนและส่งขึ้นมาสู่ระบบแบบอัตโนมัติ สมาคมฯไม่รับผิดชอบต่อบทความหรือข้อความใดๆ ทั้งสิ้น เพราะไม่สามารถระบุได้ว่าเป็นความจริงหรือไม่ ผู้อ่านจึงควรใช้วิจารณญาณในการกลั่นกรอง และหากท่านพบเห็นข้อความใดที่ขัดต่อกฎหมายและศีลธรรม หรือทำให้เกิดความเสียหาย หรือละเมิดสิทธิใดๆ กรุณาแจ้งมาที่ ht.ro.apt@ecivres-bew เพื่อทีมงานจะได้ดำเนินการลบออกจากระบบในทันที