เลือกตัวแบบถดถอยอย่างไรให้ได้ผลดีที่สุด

การเลือกตัวแบบถดถอยเชิงเส้นที่ดีที่สุดเป็นเรื่องซับซ้อน การสร้างตัวแบบจากสิ่งตัวอย่างเพียงอย่างเดียวไม่ใช่เรื่องง่าย ในบทความนี้จะเป็นการพูดถึงวิธีการทางสถิติในการเลือกตัวแบบ ปัญหาบางอย่างที่คุณอาจจะต้องเจอ และคำแนะนำในทางปฏิบัติในการเลือกตัวแบบถดถอยให้ได้ตัวแบบที่ดีที่สุด

ในขั้นต้นนักวิจัยจะต้องเริ่มจากการอธิบายความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง นักวิจัยจะต้องค้นหาค่าวัดของตัวแปรต่างๆที่ควรจะมีในตัวแบบคืออะไร ในขั้นตอนวิเคราะห์จะพยายามทำการคัดเลือกตัวแปรที่ไม่มีความสัมพันธ์ออกไป และเหลือเฉพาะตัวแปรที่แสดงความสัมพันธ์อย่างแท้จริงให้คงไว้ โดยจะเริ่มจากการสร้างตัวแบบที่มีความเป็นไปได้ไว้หลายๆตัวแบบ

ส่วนการที่จะทำให้ได้ตัวแบบที่ดีที่สุด จะต้องมีพิจารณาจำนวนตัวแปรทำนายที่จะต้องมีในตัวแบบให้มีความพอดี โดยที่ถ้าจำนวนตัวแปรทำนายนั้นมีจำนวน......

น้อยเกินไป จะทำให้ตัวแบบที่ได้มีแนวโน้มว่าจะเกิดการประมาณค่าแบบเอนเอียง
มากเกินไป จะทำให้ตัวแบบที่ได้มีแนวโน้มว่าจะเกิดปัญหาเรื่องความแม่นยำในการประมาณค่า
พอเหมาะพอดี ตัวแบบที่มีจำนวนตัวแปรที่เหมาะสมจะไม่เกิดความเอนเอียงและทำให้มีความแม่นยำในการประมาณค่า

วิธีการทางสถิติที่ใช้ในการหาตัวแบบถดถอยที่ดีที่สุด

ตัวแบบถดถอยที่ดีจะต้องมีตัวแปรที่มีความสัมพันธ์เฉพาะกับตัวแปรตอบสนองโดยทำให้เกิดการประมาณค่าที่มีความเอนเอียง (Bias) น้อยที่สุด โปรแกรม Minitab มีตัววัดทางสถิติและวิธีการเพื่อช่วยให้คุณระบุตัวแบบถดถอยที่ต้องการได้

ค่า Adjusted R-squared และ Predicted R-squared โดยทั่วไปจะเลือกตัวแบบที่ให้ค่า adjusted และ predicted R-squared มากๆ ซึ่งค่าสถิติทั้งสองตัวนี้ต่างจากค่า R-squared ปกติ เพราะค่า R-squared ปกติ จะมีค่าเพิ่มขึ้นเสมอเมื่อคุณเพิ่มจำนวนตัวแปรทำนายลงในตัวแบบ ซึ่งอาจทำให้สุดท้ายแล้วตัวแบบที่ได้มีความซับซ้อนเพราะมีจำนวนตัวแปรมากเกินไป

ค่า adjusted R squared จะเพิ่มขึ้นก็ต่อเมื่อพจน์ที่เพิ่มลงไปในตัวแบบนั้น ทำให้ตัวแบบดีขึ้นอย่างมีนัยสำคัญ และทำให้สามารถลดจำนวนตัวแปรทำนายที่มีไม่มีคุณภาพได้
ค่า predicted R-squared เป็นเหมือนการทำทวนสอบไขว้ (cross-validation) เพื่อดูว่าตัวแบบนั้นใช้ได้กับข้อมูลชุดอื่นทั่วไป ด้วยการแบ่งย่อยข้อมูลเป็นส่วน

ค่า p-values สำหรับตัวแปรทำนาย ในตัวแบบถดถอย ค่า p-values น้อยๆเป็นการบอกว่าตัวแปรนั้นมีนัยสำคัญ “Reducing the model” คือการลดรูปตัวแบบ ด้วยการเอาตัวแปรทำนายที่มีค่า p-values มาก ๆ ออกจากตัวแบบครั้งละตัวแปรเพื่อให้เหลือแต่ตัวแปรทำนายที่มีนัยสำคัญจริง ๆ

วิธีการเพิ่มตัวแบบถดถอยแบบขั้นตอน และ ตัวแบบถดถอยแบบชุดข้อมูลย่อยที่ดีที่สุด (Stepwise regression and Best subsets regression) เป็นวิธีการหาตัวแปรทำนายแบบอัตโนมัติด้วยการระบุตัวแปรทำนายในระหว่างขั้นตอนการสร้างตัวแบบ ในตัวแบบถดถอยแบบชุดข้อมูลย่อยที่ดีที่สุด โปรแกรม Minitab ใช้เกณฑ์ของ Mallows’ Cp ซึ่งจะเป็นการคิดค่าตัวสถิติที่คำนึงถึงเรื่องของความแม่นยำ (precision) และ ความเอนเอียง (bias)

การใช้งานในทางปฏิบัติ

เนื่องจากมีวิธีการทางสถิติหลายอย่างในการเลือกตัวแบบที่ดีที่สุด แต่ในทางปฎิบัติก็มีปัจจัยหลายอย่างที่ทำให้เกิดปัญหาในการเลือกใช้งานได้เช่นกัน ดังนั้นเราจึงมีแนวทางในการใช้งานไว้ดังนี้

ตัวแปรที่สามารถวัดได้จะทำให้ได้ตัวแบบที่ดีกว่า ตัวแปรที่เลือกลงไปในตัวแบบมีความสำคัญอย่างมากเพราะอาจทำให้ตัวแบบมีความถูกต้องหรือไม่ก็ได้ อ่านเพิ่มเติมในเรื่องของตัวอย่างการยกเว้นตัวแปรบางตัวที่ทำให้เกิดความเอนเอียง
สิ่งตัวอย่างที่นำมาใช้ในการวิเคราะห์อาจไม่ถูกต้อง โดยเหตุผลนั้นอาจมาจากธรรมชาติของตัวแปรสุ่มเอง หรือ มาจากวิธีการเก็บสิ่งตัวอย่าง ซึ่งส่งผลให้เกิดการแปรผลผิดพลาดได้ทั้งแบบ false positive และ false negative
ค่า p-value ที่สามารถเปลี่ยนแปลงค่าได้เพราะบางพจน์ในตัวแบบ โดยเฉพาะตัวแปรที่มีความสัมพันธ์หลายแนวที่สามารถทำให้เกิดความมีนัยสำคัญ และทำให้ยากที่จะกำหนดบทบาทของตัวทำนายแต่ละตัว
การประเมินตัวแบบอาจทำให้คุณหาตัวแปรที่มีนัยสำคัญจริงๆพบ รูปแบบการค้นหาความจริงจากข้อมูล กรณีแบบนี้ค่า predicted R-squared อาจจะพอเป็นตัวช่วยในการแก้ปัญหานี้ได้
ค่า P-values, ค่า predicted และ adjusted R-squared, และ ค่า Mallows’ Cp อาจจะให้คำตอบตัวแบบที่ดีที่สุดต่างกัน
วิธี Stepwise regression และ best subsets regression เป็นเครื่องมือที่ถือว่าน่าจะให้ตัวแบบที่ถูกต้องเกือบจะที่สุด แต่จากการศึกษาพบว่าตัวแบบที่ถูกต้องมักไม่ได้ถูกเลือกไปใช้

คำแนะนำสำหรับการหาตัวแบบถดถอยที่ดีที่สุด

การเลือกตัวแบบถดถอยที่ถูกต้องเป็นทั้งศาสตร์และศิลป์ วิธีการทางสถิติสามารถช่วยในการหาทิศทางที่จะเดินไปให้ถูกต้องแต่ต้องประกอบกับการพิจารณาของผู้ตัดสินใจด้วย

ทางทฤษฎี

ในขั้นต้นควรเริ่มจากกรณีศึกษาในงานวิจัยที่เคยทำมาเพื่อมาสร้างเป็นกรอบของตัวแบบการถดถอย จากนั้นจึงพัฒนาแนวคิดต่างๆรวมถึงหาตัวแปรที่สำคัญที่มีความสัมพันธ์กับตัวแปรอื่นๆ เครื่องหมายของตัวสัมประสิทธิ์ และขนาดของ effect ที่ควรจะเป็นการสร้างตัวแบบที่มาจากงานวิจัยก่อนหน้าจะช่วยทำให้การเก็บข้อมูลและระบุตัวแบบได้ดีขึ้นโดยลดทอนงานด้านการค้นหาความจริงจากข้อมูล

การพิจารณาตามทฤษฎีไม่ควรใช้ค่าทางสถิติเพียงอย่างเดียว แต่ควรมีการทดสอบตัวแบบและปรับแก้ค่าต่างๆให้เหมาะสม เช่น ตามทฤษฎีบอกว่าตัวแปรหนึ่งไม่มีนัยสำคัญ เพราะค่า p-value มาก แต่ถ้ามองจากเครื่องหมายของสัมประสิทธิ์มีค่าขัดแย้งกับทางทฤษฎี คุณควรทำการสืบค้นดูว่าทำไมตัวแปรนั้นจึงแสดงความสัมพันธ์ไม่สอดคล้องกับทางทฤษฎี

ความซับซ้อน

คุณอาจคิดว่าปัญหาที่ซับซ้อนอาจต้องใช้ตัวแบบที่มีความซับซ้อนเป็นตัวอธิบาย แต่จากกรณีศึกษาจำนวนมากพบว่าตัวแบบที่ไม่ซับซ้อนจะสามารถให้ผลการทำนายที่แม่นยำกว่า เมื่อนำตัวแบบที่มีความคล้ายคลึงกัน ตัวแบบที่มีความซับซ้อนน้อยกว่าจะเป็นตัวแบบที่ดีที่สุด ดังนั้นจึงควรเริ่มต้นที่ตัวแบบง่ายๆก่อนแล้วเพิ่มความซับซ้อนลงในตัวแบบก็ต่อเมื่อจำเป็นเท่านั้น เพราะยิ่งมีความซับซ้อนมากเท่าไหร่การปรับแต่งตัวแบบให้เหมาะกับข้อมูลจะยิ่งมีความยากมากยิ่งขึ้น การทวนสอบเมื่อทำการเพิ่มตัวแปรลงในตัวแบบด้วยการดูค่าช่วงค่าทำนาย (prediction intervals) จะต้องมีความกว้างลดลง และเปลี่ยนมาสังเกตค่า predicted R-squared แทนค่า R-squared ทั่วไป

การใช้กราฟค่าเศษเหลือ (Residual Plots)

ในการประเมินตัวแบบ ด้วยการใช้ residual plot เพื่อเป็นเครื่องมือในการดูว่าตัวแบบนั้นมีคุณภาพหรือไม่และทำให้ตัวแบบที่ดียิ่งขึ้น ตัวอย่างเช่น ตัวแบบที่มีความเอนเอียง จะแสดงรูปแบบบางอย่างใน residual plot เช่น เส้นโค้งของตัวแบบ ตัวแบบที่มีความซับซ้อนน้อยจะแสดงค่าเศษเหลือในรูปแบบสุ่ม (random) ซึ่งทำให้ได้ตัวแบบที่ไม่เอนเอียงและมีความแม่นยำที่ค่อนข้างดี

ในท้ายที่สุดข้อสรุป คือ ไม่มีการวัดใดที่จะเป็นตัวบ่งชี้ให้ได้ว่าตัวแบบใดคือตัวแบบที่ดีที่สุดเพราะความเข้าใจทางสถิติเพียงอย่างเดียวไม่เพียงพอ คุณจะต้องอาศัยความรู้ความเข้าใจพื้นฐานในงานหรือกระบวนการของคุณเป็นส่วนสำคัญด้วย

บทความนี้ ต้นฉบับนำมาจาก Click

บทความนี้เกิดจากการเขียนและส่งขึ้นมาสู่ระบบแบบอัตโนมัติ สมาคมฯไม่รับผิดชอบต่อบทความหรือข้อความใดๆ ทั้งสิ้น เพราะไม่สามารถระบุได้ว่าเป็นความจริงหรือไม่ ผู้อ่านจึงควรใช้วิจารณญาณในการกลั่นกรอง และหากท่านพบเห็นข้อความใดที่ขัดต่อกฎหมายและศีลธรรม หรือทำให้เกิดความเสียหาย หรือละเมิดสิทธิใดๆ กรุณาแจ้งมาที่ ht.ro.apt@ecivres-bew เพื่อทีมงานจะได้ดำเนินการลบออกจากระบบในทันที

ตอนที่ 1 : การวิเคราะห์สมการถดถอย การแปลความหมายค่า R-Square และการประเมินตัวแบบว่าเหมาะสมหรือไม่
ตอนที่ 2 : เลือกตัวแบบถดถอยอย่างไรให้ได้ผลดีที่สุด

ผู้เขียน : Solution Center Minitab

เลือกตัวแบบถดถอยอย่างไรให้ได้ผลดีที่สุด