ในการวิเคราะห์การถดถอย ค่า R2 ควรจะมีค่ามากเท่าไหร่ เป็นคำถามที่เราจะได้ยินบ่อยๆ จากก่อนหน้านี้ได้กล่าวถึงการแปลความหมายของค่า R2 และได้แสดงถึงความเข้าใจผิดเกี่ยวกับค่าสถิติตัวนี้ ค่า R2 ต่ำไม่ได้หมายความไม่ดี และค่า R2 สูงไม่ได้จำเป็นต้องมีความหมายดีเสมอไป
ดังนั้น คำตอบสำหรับค่า R2 ควรจะมีค่ามากเท่าไหร่ ต้องขึ้นกับอะไรบ้าง....
ในบทความนี้จะช่วยตอบคำถามนี้สำหรับคุณ
เริ่มจากถ้าคุณถามว่าค่า R2 ควรมีค่าสูงเท่าไหร่ดี นี่เป็นการตั้งคำถามที่ไม่ถูกต้องเท่าไหร่นัก แต่ควรตั้งคำถามแบบไหนจึงจะถูกต้องมากกว่า และคุณควรจะมีคำตอบว่าอะไร
“ค่า R2 ควรมีค่าสูงเท่าไหร่” ทำไมคำถามนี้จึงไม่ถูกต้อง มีคำตอบที่เป็นไปได้อย่างเดียวสำหรับคำถามนี้คือ ค่า R2 ต้องมีค่าเท่ากับเปอร์เซนต์ของความผันแปรของตัวแปรที่อธิบายได้ในตัวแบบ
หมายความว่าเมื่อคุณถามด้วยคำถามนี้ คุณต้องการจะรู้ว่าตัวแบบถดถอยที่คุณหานั้นเป็นไปตามที่คุณต้องการ และตัวแบบนั้นเพียงพอต่อความต้องการของคุณ
คำถามที่ควรจะเป็น ควรจะมีเป็นไปตามนี้ โดยคำถามที่จะใช้ก็ขึ้นกับวัตถุประสงค์ของความต้องการที่จะใช้ตัวแบบถดถอยนั้นๆ
ค่า R2 และความสัมพันธ์ระหว่างตัวแปรทำนาย (หรือตัวแปรอิสระ) และตัวแปรตอบสนอง
R-squared and the Relationship between the Predictors and Response Variable
ถ้าเป้าหมายของคุณคือการหาว่าตัวแปรทำนายมีนัยสำคัญทางสถิติหรือไม่และถ้าตัวแปรทำนายเปลี่ยนไปจะทำให้ตัวแปรตอบสนองเปลี่ยนไปอย่างไร ซึ่งไม่เกี่ยวข้องกับค่า R2 แต่อย่างใด
ถ้าสมมติว่าตัวแบบถดถอยที่หามาได้นั้นถูกต้อง ค่า R2 ก็ไม่ได้ส่งผลใดๆต่อความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง
ถ้าตัวแบบความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง พบว่าผลค่า p-value ของตัวแปรทำนายมีนัยสำคัญ และค่าสัมประสิทธิ์มีค่าเป็น 2 ผลที่ได้นี้แปลความได้ว่า ถ้าตัวแปรทำนายมีค่าเพิ่มขึ้น 1 หน่วย ทำให้ค่าเฉลี่ยของผลลัพธ์เพิ่มขึ้น 2 หน่วย ซึ่งการแปลความนี้จะมีค่าเป็นเช่นเดิมไม่ว่าค่า R2 จะมีค่าเป็น 25% หรือ 95%
ดูเพิ่มเติมในบทความ See a graphical illustration of why a low R-squared doesn't affect this interpretation
ดังนั้นกับคำถามที่ว่า “ค่า R2 ควรมีค่ามากแค่ไหน” จึงดูไม่ใช่คำถามที่เหมาะสมกับเนื้อหาตรงนี้เพราะไม่มีความเกี่ยวข้องกัน ถึงแม้ว่า R2 จะน้อยก็ไม่ได้ทำให้ผลว่าตัวแปรทำนายมีนัยสำคัญ หรือ ค่าสัมประสิทธิ์นั้นเปลี่ยนแปลงแต่อย่างใด ค่า R2 จะมีค่าเท่าไหร่ก็ตาม การแปลความหมายยังคงเช่นเดิม และในการแปลความหมายควรจะเพื่อตอบคำถามเหล่านี้มากกว่าเช่น
ค่า R2 และการทำนายค่าตัวแปรตอบสนอง
ถ้าเป้าหมายคือการหาตัวแบบที่ทำนายได้แม่นยำ ค่า R2 เป็นสิ่งที่ควรให้ความสนใจ การทำนายไม่ใช่เพียงค่าการหาค่าทำนายของตัวแปรตอบสนองแต่หมายถึงความผิดพลาดของการทำนายควรมีค่าน้อยเพื่อให้การทำนายนั้นแม่นยำขึ้น
ค่า R2 เป็นสิ่งต้องนำมาพิจารณาเพราะว่าค่า R2 ยิ่งน้อยหมายถึงตัวแบบมีความผิดพลาดเพิ่มขึ้น ดังนั้น ค่า R2 ที่ต่ำ เป็นการเตือนให้รู้ว่าการทำนายนั้นมีความแม่ยำน้อย อย่างไรก็ตามการใช้ค่า R2 เพื่อดูว่าการทำนายนั้นมีความแม่นยำเพียงพอหรือไม่ในการนำไปใช้งาน กับการใช้คำถามว่า “ค่า R2 ควรมีค่ามากแค่ไหน” ยังคงไม่ใช่คำถามที่ถูกต้องอยู่ดี แต่ควรถามว่า
“ช่วงของค่าการทำนาย (prediction intervals) เพียงพอต่อความต้องการหรือไม่” และแน่นอน Minitab Statistical Software มีคำสั่งที่สามารถให้คำตอบตรงนี้ได้
ช่วงของค่าการทำนายและความแม่นยำ
Prediction intervals and precision
ช่วงของค่าการทำนาย (Prediction intervals) เป็นค่าที่แทนช่วงของค่าทำนายค่าหนึ่งที่ได้จากค่าของตัวแปรทำนายที่กำหนด ช่วงของค่านี้จะนับรวมค่าผิดพลาดรอบค่าเฉลี่ยของค่าทำนาย ซึ่งช่วงค่าการทำนายที่แคบหมายถึงมีความแม่นยำสูง
ตัวอย่างเช่น ในบทความ BMI to predict body fat percentage ซึ่งใช้ค่า BMI ในการทำนายค่าเปอร์เซ็นต์ไขมันในร่างกาย ซึ่งค่า BMI เท่ากับ 18 ซึ่งได้ผลว่าค่าช่วงการทำนายเปอร์เซ็นต์ไขมันอยู่ที่ 16-30% และให้ความเชื่อมั่น 95% ว่าค่าสังเกตตัวใหม่ที่จะได้จะอยู่ในช่วงดังกล่าวนี้
ตอนนี้คุณพอจะนึกออกแล้วว่าเรื่องนี้ควรเกี่ยวข้องกับอะไรบ้าง เช่น ข้อกำหนดเฉพาะ ความต้องการของลูกค้า เป็นต้น ซึ่งช่วงของค่าทำนายนั้นเพียงพอกับสิ่งที่คุณต้องการหรือไม่ แนวคิดนี้ใช้ประเมินว่าตัวแบบมีความแม่นยำเท่าใดซึ่งดีกว่าเป็นการบอกว่าค่า R-squared ที่ดีควรมีค่าเท่าใด
เช่นตัวอย่าง ตัวแบบไขมันในร่างกายถึงแม้ว่าช่วงของค่าทำนายจะมีความกว้างอยู่มากแต่ผมมั่นใจว่าแพทย์สามารถใช้ค่านี้ให้เป็นประโยชน์ได้อย่างแน่นอน ในการหาช่วงค่าการทำนายสามารถหาอ่านเพิ่มเติมได้ที่ “how to obtain and use prediction intervals”
ความหมายของ R-squared ที่อาจจะเกินจริง!
เวลาที่คุณถามว่า “ค่า R2 ควรมีค่ามากแค่ไหน” เป็นเพราะคุณต้องการที่จะรู้ว่าตัวแบบการถดถอยที่ได้มานั้นเป็นไปตามความต้องการหรือไม่ แต่จากในส่วนต้นของบทความนี้การหาว่าตัวแบบนี้เพียงพอสำหรับความต้องการหรือไม่ควรจะพิจารณาจากสิ่งใดมากกว่ามาสนใจค่า R2 เพียงอย่างเดียว
ค่า R2 มักเป็นค่าที่ทุกคนให้ความสนใจอาจเป็นเพราะคิดว่าค่านั้นสามารถแปลความได้ง่ายและสะท้อนภาพออกมาได้ดี ซึ่งจริงๆไม่ใช่เลย แต่นั่นไม่ได้หมายความว่า ค่า R2 ไม่มีประโยชน์เลย แต่แทนที่จะสนใจว่ามีค่าสูงหรือต่ำควรจะหันไปสนใจว่าทำไมค่า R2 ที่ได้ถึงมีค่าแตกต่างกัน
ในบทความต่อไป จะกล่าวถึงเรื่อง ค่าส่วนเบี่ยงมาตรฐานของการถดถอยแตกต่างจากค่า goodness-of-fit ซึ่งสามารถนำไปใช้ได้มากกว่า ค่า R2
ถ้าต้องการจะเรียนรู้เพิ่มเติมเกี่ยวกับตัวแบบถดถอย (regression) อ่านเพิ่มเติมได้ที่ “regression tutorial”
บทความต้นฉบับ
บทความนี้เกิดจากการเขียนและส่งขึ้นมาสู่ระบบแบบอัตโนมัติ สมาคมฯไม่รับผิดชอบต่อบทความหรือข้อความใดๆ ทั้งสิ้น เพราะไม่สามารถระบุได้ว่าเป็นความจริงหรือไม่ ผู้อ่านจึงควรใช้วิจารณญาณในการกลั่นกรอง และหากท่านพบเห็นข้อความใดที่ขัดต่อกฎหมายและศีลธรรม หรือทำให้เกิดความเสียหาย หรือละเมิดสิทธิใดๆ กรุณาแจ้งมาที่ ht.ro.apt@ecivres-bew เพื่อทีมงานจะได้ดำเนินการลบออกจากระบบในทันที