ในบทความนี้จะพูดถึงเทคนิค 4 หัวข้อที่จะช่วยทำหลีกเลี่ยงข้อผิดพลาดพื้นฐานในการวิเคราะห์การถดถอย ที่มีพบเห็นได้ในงานวิจัยต่างๆ
ซึ่งจะมุ่งไปที่งานที่มีการประยุกต์ใช้การวิเคราะห์การถดถอยเพื่อการตัดสินใจมากกว่าการชี้ว่าตัวทำนายทาง สถิตินั้นมีนัยสำคัญหรือไม่ ซึ่งการประยุกต์ใช้การวิเคราะห์การถดถอยจะเน้นไปที่ผลที่สามารถส่งไปถึงค่าผลลัพธ์ และความแม่นยำในการทำนาย
1. ใช้ผลการศึกษาก่อนหน้าเพื่อมากำหนดตัวแปรที่จะรวมในตัวแบบการถดถอย
ก่อนที่จะเริ่มการวิเคราะห์การถดถอย คุณควรที่จะมีกรอบว่าตัวแปรใดมีความสำคัญในความสัมพันธ์ เครื่องหมายของตัวสัมประสิทธิ์ และขนาดของอิทธิพล ซึ่งอ้างอิงจากงานวิจัยที่ทำมาก่อนหน้า น่าเสียดายที่แนวโน้มของ แนวคิดนี้ได้เปลี่ยนไปแล้ว แม้ว่าจะมีฐานข้อมูลเดิมและสามารถนำฐานข้อมูลนั้นมาสร้างตัวแบบถดถอยได้
ถ้าคุณต้องการเห็นปัญหานี้ ให้เริ่มต้นตั้งแต่การสังเคราะห์ข้อมูล โดยเริ่มสร้างแผ่นงาน (worksheet) ในโปรแกรม Minitab ให้มี 101 คอลัมน์ แต่ละคอลัมน์มี 30 แถว และสร้างข้อมูลอย่างสุ่มลงในแผ่นงาน หรือใช้ ข้อมูลจากไฟล์ตัวอย่าง จากสร้างการถดถอยแบบขั้นบันได (stepwise regression) โดยให้ คอลัมน์หนึ่งเป็นตัวแปรตอบสนอง (responsive variable) และให้คอลัมน์ที่เหลือเป็นตัวแปรทำนายที่มีความเป็นไปได้(potential predictor variable) ทำการจำลอง สถานการณ์ของข้อมูลเพื่อดูผลวิเคราะห์ที่เกิดขึ้น
จากผลลัพธ์ที่แสดงข้างล่างนี้ แต่ละคอลัมน์ของผลลัพธ์แสดงค่าตัวสถิติของ 5 ขั้นแรกที่ได้จากการวิเคราะห์ แบบขั้นบันได สำหรับกรณีที่มีตัวแปรทำนาย 5 ตัว มีค่า R-squared 84.23% และ ค่า adjusted R-squared 80.12% ค่า p-values ไม่ได้แสดงไว้ที่นี่ แต่ทุกตัวมีค่าน้อยและไม่ถึง 0.01
ส่วนของ Stepwise regression และ best subsets regression จะเป็นงานในส่วนขั้นตอนแรก คุณจะต้องมีเหตุผล ที่มากพอที่จะบอกว่าตัวแปรทำนายใดที่ควรนำไปรวมในตัวแบบถดถอย มากกว่าเพียงแค่นำมาตัดสินใจว่าจะปฏิเสธ สมมติฐานหลัก (Null hypothesis) หรือไม่
2. ทำให้ตัวแบบเป็นตัวแบบที่ง่ายที่สุด (Keep the model simple)
ถึงแม้ว่า ปัญหาที่มีความซับซ้อนอาจจะทำให้คิดว่าตัวแบบที่ได้ควรจะมีความซับซ้อนด้วย แต่ในความเป็นจริง จากการศึกษาหลายๆงานพบว่า ตัวแบบที่มีความซับซ้อนน้อยยิ่งทำให้การทำนายมีความแม่นยำมากขึ้น อย่างไรจึงจะ เรียกว่าไม่ซับซ้อน ในหลายๆกรณีจะถือว่าตัวแบบที่มีเพียง 3 ตัวแปรทำนาย ถือว่าเพียงพอแล้ว
ดังนั้นควรเริ่มจากตัวแบบอย่างง่าย และจะใช้ตัวแบบที่มีความซับซ้อนต่อเมื่อมีความจำเป็นเท่านั้น และต้องมั่นใจ ด้วยว่าตัวแปรที่เพิ่มเข้ามานั้นจะทำให้มีความแม่นยำเพิ่มขึ้น โดยเมื่อความซับซ้อนเพิ่มขึ้นเหมือนว่าจะทำให้สมการมีความ สมรูปมากขึ้น (ค่า r-squared) แต่อาจจะทำให้ความแม่นยำของการทำนายมีค่าลดลง (ความกว้างของช่วงของทำนาย จะมีความกว้างเพิ่มขึ้น)
บทความอีกอันหนึ่งจะเขียนอธิบายถึงผลดีผลเสีย และการเลือกตัวแปรทำนายกี่ตัวให้อยู่ในตัวแบบถึงจะได้ผลดี ที่เหมาะสม ซึ่งอ่านได้ในบทความ ค่า Adjusted และ predicted r-squared
3.ความสัมพันธ์ไม่ได้หมายความว่าเป็นเหตุให้เกิดสิ่งนั้น เช่นเดียวกับในการวิเคราะห์การถดถอยด้วย (Correlation is not causation..even in regression analysis)
ข้อความนี้เป็นข้อเท็จจริงทางสถิติที่ดูไม่ซับซ้อนอะไร แต่ในการวิเคราะห์การถดถอยหลายๆครั้งบางคนก็ลืม กฎข้อนี้ไป ตัวแบบที่คุณได้อาจจะเป็นตัวแบบที่ดี มีตัวแปรทำนายที่มีนัยสำคัญ ค่า r-squared สูง แต่อาจจะได้เพียงค่า ความสัมพันธ์ (correlation) แต่ไม่ได้สาเหตุที่เกิดสิ่งนั้น (causation)
ในบางกรณี อาจจะไม่ได้เป็นปัญหาใดๆการทำนายอาจไม่จำเป็นต้องการเหตุผลว่าทำไมตัวแปรทำนายและ ตัวแปรตอบสนองจึงมีความสัมพันธ์กัน ในทางกลับกัน ตัวแปรแทน (proxy variable) ที่มีความสัมพันธ์กับตัวแปร ตอบสนอง ที่สามารถแสดงความสัมพันธ์ออกมาได้ง่ายกว่าและทำให้การทำนายที่ผลมีความน่าเชื่อถือได้เพียงพอ
เพื่อให้ภาพตรงนี้ชัดเจนขึ้น ให้นึกถึงการศึกษาที่ไม่ได้มีการควบคุมการทดลองให้เกิดแบบสุ่ม (randomized controlled trials) ของการศึกษาว่าวิตามินมีผลต่อสุขภาพหรือไม่ หรือ การรับประทานวิตามินทำให้เกิดนิสัยที่เป็น ประโยชน์ต่อสุขภาพทำให้เกิดสุขภาพที่ดีขึ้น ซึ่งคิดได้ง่ายๆว่า ถ้าการรับประทานวิตามินไม่ได้ทำให้สุขภาพดีขึ้น ดังนั้นการทานวิตามินมากขึ้นก็จะไม่ทำให้สุขภาพดีขึ้น
4.การแสดงค่าช่วงความเชื่อมั่นและช่วงการทำนายเพิ่มจากผลความมีนัยสำคัญของการวิเคราะห์ (Present confidence and prediction intervals in addition to statistical significance)
ผลความมีนัยสำคัญและช่วงความเชื่อมั่นจะต้องมีผลที่สอดคล้องกัน เช่น ถ้าตัวสถิตินั้นมีค่าไม่ใช่ค่าศูนย์ มีผลนัยสำคัญ ที่ α = 0.05 คุณจะได้ผลของ 95% ช่วงความเชื่อมั่นของตัวสถิตินั้นไม่ครอบคลุมค่าศูนย์
ผลที่ได้อย่างสอดคล้องกันนี้ ทำให้ การนำสาระข้อมูลไปใช้มีความเปลี่ยนแปลงไป ซึ่งได้มีการกล่าวไว้ ในบทความก่อนหน้านี้แล้ว ในการแสดงผลทั้งสองนี้ทำให้การแปลผลมีความถูกต้องเพิ่มขึ้น การศึกษาด้วยการแสดงผล ความมีนัยสำคัญที่ระดับนัยสำคัญของการทดสอบ จะให้ข้อสรุปที่ถูกต้อง เพียงแค่ 40% แต่ถ้ามีการแสดงผลของ ช่วงความเชื่อมั่นด้วยจะทำให้ความถูกต้องเพิ่มเป็น 95%
จะทำการแยกการวิเคราะห์การถดถอยที่ดีและที่มีความถูกต้องน้อยอย่างไร (How do you distinguish a good regression analysis from a less rigorous regression analysis)
สำหรับการวิเคราะห์การถดถอยที่ดี ผู้วิเคราะห์
บทความต้นฉบับ : http://blog.minitab.com/blog/adventures-in-statistics/four-tips-on-how-to-perform-a-regression-analysis-that-avoids-common-problems
เนื้อหาบทความโดยบริษัท Minitab Inc. ประเทศสหรัฐอเมริกา
แปลและเรียบเรียงโดยสุวดี นําพาเจริญ และ ชลทิขา จํารัสพร, บริษัท โซลูชั่น เซ็นเตอร์ จํากัด webadmin@solutioncenterminitab.com
บทความนี้เกิดจากการเขียนและส่งขึ้นมาสู่ระบบแบบอัตโนมัติ สมาคมฯไม่รับผิดชอบต่อบทความหรือข้อความใดๆ ทั้งสิ้น เพราะไม่สามารถระบุได้ว่าเป็นความจริงหรือไม่ ผู้อ่านจึงควรใช้วิจารณญาณในการกลั่นกรอง และหากท่านพบเห็นข้อความใดที่ขัดต่อกฎหมายและศีลธรรม หรือทำให้เกิดความเสียหาย หรือละเมิดสิทธิใดๆ กรุณาแจ้งมาที่ ht.ro.apt@ecivres-bew เพื่อทีมงานจะได้ดำเนินการลบออกจากระบบในทันที