Solution Center Minitab

ผู้เขียน : Solution Center Minitab

อัพเดท: 16 ก.ย. 2020 14.13 น. บทความนี้มีผู้ชม: 135549 ครั้ง

เมื่อทำการหาตัวแบบเชิงเส้นด้วยการวิเคราะห์การถดถอย ANOVA และการออกแบบการทดลอง เราจะต้องมีการประเมินแบบนั้นด้วยว่ามีความเหมาะสมในการนำไปใช้งานหรือไม่ ซึ่งใน Minitab มีตัวสถิติที่ใช้ทดสอบความสมรูปของตัวแบบ (Goodness of fit statistics) ให้เลือกนำมาใช้ในการประเมินตัวแบบอยู่หลากหลายตัว


การวิเคราะห์สมการถดถอย การแปลความหมายค่า R-Square และการประเมินตัวแบบว่าเหมาะสมหรือไม่

เมื่อทำการหาตัวแบบเชิงเส้นด้วยการวิเคราะห์การถดดอย  ANOVA และ การออกแบบการทดลอง เราจะต้องมี การประเมินตัวแบบนั้นด้วยว่ามีความเหมาะสมในการนำไปใช้งานหรื่อไม่ ซึ่งใน Minitab มีตัวสถิติที่ใช้ทดสอบความ สมรูปของตัวแบบ (Goodness of fit statistics) ให้เลือกนำมาใช้ในการประเมินตัวแบบอยู่หลากหลายตัว แต่ในที่นี้จะพูดถึง ตัวสถิติ ค่า R2 (R-Squared) โดยพูดถึงข้อจำกัดและความหมายอื่นๆ ซึ่งในบางครั้งการที่ค่า R2  มีค่าต่ำ อาจไม่ได้หมายความ ว่าไม่ดีทุกครั้งไป และเช่นกันค่า R2 ที่มีค่าสูงก็ไม่ได้มีความหมายในเชิงบวกเสมอไป

ตัวแบบเชิงเส้นที่มีความสมรูปคือ (What is Goodness-of-Fit for a Linear Model)

ตัวแบบการถดถอยเชิงเส้น (Linear Regression Model) ได้มาจากการคำนวณระยะห่างระหว่างเส้นตรง ที่มาจากข้อมูลค่าสังเกต และ ค่าที่คำนวณได้จากสมการเส้นตรง (Fitted) และสมการเส้นตรงที่ได้จะให้เกิดค่าระยะห่าง ของจุดข้อมูลกับเส้นตรงโดยรวมน้อยที่สุด

ทางเทคนิคจะใช้ค่า OSL (Ordinary Least Square) เพื่อทำให้เกิดค่าผลรวมของค่าเศษเหลือกำลังสอง (sum of the square residual) ให้น้อยที่สุด

case3_pic1

โดยทั่วไปแล้วตัวแบบที่เหมาะสม จะมีความแตกต่างของค่าที่สังเกตได้กับค่าที่คำนวณตามสมการน้อย และเป็นค่าที่ไม่เอนเอียง (unbiased)

ก่อนที่จะทำการวิเคราะห์ความสมรูปทางสถิติ คุณควรที่จะทำการตรวจสอบแผนภาพเศษเหลือ (Residual plots) ร่วมด้วยเสมอ   ซึ่งจากแผนภาพเศษเหลือนี้ จะทำให้เห็นรูปแบบของค่าเศษเหลือที่ไม่มีคุณภาพ ซึ่งบ่งบอกถึงความเอนเอียง ได้ดีกว่าการวิเคราะห์ด้วยตัวเลข ถ้าแผนภาพเศษเหลือนี้แสดงให้เห็นว่าไม่มีความผิดปกติใดๆ การวิเคราะห์ด้วยตัวเลขก็ทำให้ น่าเชื่อถือได้ดีขึ้นแล้วจึงไปทำการวิเคราะห์ความสมรูปของตัวแบบอีกทีหนึ่ง

ค่า R-Squared คืออะไร (What is R-Squared)

ค่า R-Squared คือตัวสถิติที่ใช้วัดว่าตัวแบบคณิตศาสตร์ที่ได้นี้มีความสมรูปกับข้อมูลมากน้อยอย่างไร หรือรู้จักกัน ในอีกความหมายหนึ่งว่าเป็น ค่าสัมประสิทธิ์แสดงการตัดสินใจ (Coefficient of Determination) หรือ ค่าสัมประสิทธิ์แสดง การตัดสินใจเชิงซ้อน (Coefficient of Multiple Determination) สำหรับการวิเคราะห์การถดถอยแบบพหุคูณ (Multiple Regression)

นิยามของค่า R-Squared คือ ค่าความผันแปรของตัวแปรตอบสนองที่สามารถอธิบายได้มีอยู่ในตัวแบบเชิงเส้นนี้ กี่เปอร์เซ็นต์ หรือ

R-Squared = ความผันแปรที่สามารถอธิบายได้ / ความผันแปรทั้งหมด (Explained variation / Total Variation)

ค่า R-Squared จะมีค่าอยู่ระหว่าง  0%  - 100%

- 0% แสดงให้เห็นว่า ตัวแบบคณิตศาสาตร์ที่ได้มานั้นไม่สามารถอธิบายความผันแปรของค่าตัวแปรตอบสนอง ต่างที่กระจายรอบค่าเฉลี่ยได้เลย

- 100% แสดงให้เห็นว่า ตัวแบบคณิตศาสาตร์ที่ได้มานั้นสามารถอธิบายความผันแปรของค่าตัวแปรตอบสนอง ต่างที่กระจายรอบค่าเฉลี่ยได้เป็นอย่างดี

โดยทั่วไปแล้ว ค่า R-Squared สูงๆ หมายความว่า ตัวแบบคณิตศาสตร์นั้นดี (เหมาะสมกับข้อมูล) แต่อย่างไรก็ตาม ยังมีเงื่อนไขบางอย่างที่ต้องมีพร้อมกับค่า R-Squared สูงๆนี้ด้วย

แผนภาพที่แสดงถึงค่า R-Squared

ในแผนภาพนี้เป็นการพลอตค่าข้อมูลที่สังเกตได้และค่าข้อมูลที่คำนวณได้จากตัวแบบคณิตศาสตร์  ซึ่งทั้งสอง แผนภาพนี้มีค่า R-Squared แตกต่างกัน

case3_pic2

ตัวแบบด้านซ้าย มีค่า 38% ของความแปรปรวน ส่วนของตัวแบบด้านขวามีค่า 87.4% ของความแปรปรวน ซึ่งถ้า ค่าเปอร์เซนต์ยิ่งมีค่ามาก หมายความว่าตัวแบบสามารถคำนวณค่าได้ใกล้เคียงกับค่าสังเกตมาก (หรือ ค่าสังเกตจะอยู่บน เส้นตรงของตัวแบบ) ในทางทฤษฎีถ้าตัวแบบสามารถอธิบายความแปรปรวนได้ 100% หมายความว่า ค่าที่คำนวณได้จะ มีค่าเท่ากับค่าที่สังเกตได้ ดังนั้นค่าข้อมูลที่สังเกตได้จะอยู่บนเส้นตรงของตัวแบบคณิตศาสาตร์ทุกจุด

ข้อจำกัดของค่า R-Squared

ค่า R-Squared ไม่สามารถบอกได้ว่าค่าที่คำนวณได้นั้นมีความเอนเอียงหรือไม่ ซึ่งจำเป็นต้องใช้การวิเคราะห์ แผนภาพเศษเหลือมาเป็นตัวช่วย

ค่า R-Squared ไม่สามารถบอกได้ว่า ตัวแบบคณิตศาสตร์นี้มีความเหมาะสมดีแล้วหรือไม่ ซึ่งบางครั้งตัวแบบ คณิตศาสตร์ที่ดีอาจให้ค่า R-Squared ต่ำ และบางกรณีที่มีค่า R-Squared สูงตัวแบบก็ไม่เหมาะสมกับข้อมูล

ค่า R-Squared ต่ำ ย่อมมีความหมายไม่ดีเสมอไปหรือไม่

คำตอบคือ ไม่ ด้วยเหตุผล 2 ข้อ คือ

ในบางสาขา เรารู้อยู่แล้วว่าค่า R-Squared ที่จะได้มาจะมีค่าต่ำ เช่น การทำนายพฤติกรรมมนุษย์ ในสาขาจิตวิทยา โดยทั่วไปค่า R-Squared ที่ได้จะมีค่าต่ำกว่า 50% เนื่องด้วย มนุษย์เป็นสิ่งที่ยากจะคาดเดาได้ เมื่อเทียบกับกระบวนการทาง กายภาพ

ถ้าในกรณีที่ R-Squared มีค่าต่ำ แต่ค่าตัวทำนายมีนัยสำคัญทางสถิติ คุณยังสามารถใช้ผลสรุปว่า เมื่อทำการ เปลี่ยนแปลงค่าตัวทำนายนี้เป็นแบบไหน จะทำให้ค่าตัวแปรตอบสนองเป็นอย่างไร

และไม่ว่า ค่า R-Squared จะเป็นอย่างไร ค่าสัมประสิทธิ์ในตัวแบบตัวใดที่มีนัยสำคัญ ก็ยังคงใช้เพื่ออธิบายการ เปลี่ยนแปลงของตัวแปรตอบสนองว่ามีจำนวนเท่าไหร่ เมื่อมีการเปลี่ยนแปลงค่าตัวทำนาย (predictor) 1 หน่วย (โดยที่ให้ค่า ตัวทำนายที่เหลือมีค่าคงที่) ซึ่งถือว่าข้อมูลตรงนี้มีคุณค่าที่ต้องคำนึงถึงเป็นอย่างมาก

ส่วนค่า R-Squared ที่มีค่าต่ำ จะเป็นปัญหาอย่างมากเมื่อต้องการทำนายค่าตัวแปรตอบสนองให้มีความแม่นยำ ของค่าที่มากขึ้น (ช่วงของการทำนาย (prediction interval) มีค่าช่วงไม่กว้างมากนัก)

ดังนั้นเพื่อให้การทำนายได้ผลอย่างเหมาะสม ค่า R-Squared ควรมีค่าประมาณเท่าไหร่ ? คำตอบก็ขึ้นอยู่กับว่า ความต้องการของคุณที่อยากจะได้ช่วงของความกว้างของค่าที่ทำนายนั้นมีขนาดช่วงเท่าไหร่ และความผันแปรที่จะมีในข้อมูล มีค่าเป็นเท่าไหร่ เพราะค่า R-Squared ที่มีค่าสูงย่อมให้การทำนายค่าตัวแปรตอบสนองที่มีความแม่นยำสูงกว่า แต่เท่านี้อาจไม่ เพียงพอ ซึ่งเราจะมาดูกันในหัวข้อต่อไป

ค่า R-Squared สูง ย่อมมีความหมายดีเสมอไปหรือไม่

คำตอบคือ ไม่ ค่า R-Squared ที่มีค่าสูง อาจไม่ได้หมายความว่าตัวแบบที่ได้นั้นมีความสมรูปกับข้อมูลเป็นอย่างดี ซึ่งมีคำตอบที่ซ่อนอยู่ ดูจากแผนภาพเศษเหลือและแผนภาพของเส้นตัวแบบ ด้านล่างทั้ง 2 แผนภาพนี้

แผนภาพของเส้นตัวแบบ (Fitted Line Plot) เป็นแผนภาพที่แสดงความสัมพันธ์ระหว่าง ค่า Mobility ของอิเลคตรอนใน ชิ้นส่วน semiconductor และค่า  natural log (ln) ของ density ที่เกิดขึ้นในการทดลอง

case3_pic3

จากแผนภาพจะเห็นได้ว่า ตัวแบบมีความเหมาะสมดีกับข้อมูล (ข้อมูลเรียงตัวอยู่บนเส้นสมการในแผนภาพ) และค่า R-Squared สูงถึง 98.5% ซึ่งถือว่าเป็นผลที่ดีมากแต่ถ้าดูไปที่เส้นสมการถดถอยจะเห็นได้ว่าในแต่ละช่วงของเส้นโค้งจะมีความ เบี่ยงเบน (bias) ของข้อมูลอยู่ทั้งเหนือ และ ใต้เส้นโค้งตลอดช่วง

ซึ่งเมื่อมาพิจารณาที่แผนภาพเศษเหลือ (Residual plot) จะเห็นได้ว่าในแผนภาพเศษเหลือไม่แสดงรูปแบบ random ของข้อมูล ซึ่งเป็นตัวบ่งบอกว่าตัวแบบนั้นไม่ดี ดังนั้นทุกครั้งในการวิเคราะห์ความเหมาะสมของตัวแบบ จะต้องมีการวิเคราะห์แผนภาพเศษเหลือด้วยเสมอ

case3_pic4

จากตัวอย่างนี้ จะเห็นได้ว่าการต้องเลือกระหว่างสมการถดถอยเชิงเส้นและสมการถดถอยแบบไม่เป็นเชิงเส้น ถ้าจะต้องนำมาพิจารณา คำตอบสำหรับตัวอย่างกรณีนี้คือ จะต้องมีการใช้ตัวแบบสมการถดถอยแบบไม่เป็นเชิงเส้น เพราะว่าข้อมูลไม่สมรูปกับตัวแบบเชิงเส้นนั่นเอง

บทสรุปเกี่ยวกับค่า R-Squared

ค่า R-Squared ถือเป็นค่าที่นำมาใช้วัดว่าตัวแบบสมการเชิงเส้นที่ได้มานั้นมีความเหมาะสมกับข้อมูลหรือไม่ แต่อย่างไรก็ตาม การมองเฉพาะค่า R-Squared อย่างเดียวอาจไม่สามารถตอบได้ว่าตัวแบบสมการนั้นเหมาะสมหรือไม่ แต่ต้องมีการพิจารณาค่า R-Squared ร่วมกับการวิเคราะห์แผนภาพเศษเหลือ และตัวสถิติอื่นๆ

ในเรื่องถัดไป จะยังพูดถึงค่า R-Squared ต่อ ซึ่งยังมีค่า R-Squared อีก 2 ค่าคือ ค่า Adjusted R-Squared และ ค่า Predicted R-Squared ซึ่งค่าวัดทั้ง 2 ค่านี้จะสามารถตอบคำถามที่ ค่า R-Squared ยังไม่สามารถให้คำตอบได้


บทความนี้ ต้นฉบับนำมาจาก Click


บทความนี้เกิดจากการเขียนและส่งขึ้นมาสู่ระบบแบบอัตโนมัติ สมาคมฯไม่รับผิดชอบต่อบทความหรือข้อความใดๆ ทั้งสิ้น เพราะไม่สามารถระบุได้ว่าเป็นความจริงหรือไม่ ผู้อ่านจึงควรใช้วิจารณญาณในการกลั่นกรอง และหากท่านพบเห็นข้อความใดที่ขัดต่อกฎหมายและศีลธรรม หรือทำให้เกิดความเสียหาย หรือละเมิดสิทธิใดๆ กรุณาแจ้งมาที่ ht.ro.apt@ecivres-bew เพื่อทีมงานจะได้ดำเนินการลบออกจากระบบในทันที