ในส่วนที่ 1 ของบทความชุดนี้ ได้พูดถึงสถิติอนุมาน (inferential statistic)ว่ามีการใช้ข้อมูลที่ได้จากสิ่งตัวอย่างเพื่อทำให้ได้ข้อสรุปเกี่ยวกับประชากรทั้งหมดอย่างไร ซึ่งเป็นเครื่องมือที่มีประโยชน์แต่จะต้องมีการทวนสอบสมมติฐานตอนใช้สถิติอนุมาน ถ้ามีสมมติฐานใดไม่ได้ตามที่กำหนด อาจทำให้ได้ผลลัพธ์บวกปลอม (false positive) หรือ ผลลัพธ์ลบปลอม (false negative) ซึ่งให้ผลลัพธ์ที่ได้มาไม่สามารถใช้งานได้
สมมติฐานพื้นฐานทั่วไปของข้อมูล คือ ข้อมูลมีความสุ่ม ความเป็นอิสระ เป็นตัวแปรสุ่มแบบปกติ ความแปรปรวนเท่ากัน และ ระบบการวัดมีความถูกต้องและแม่นยำ
ในบทความที่แล้วพูดถึงเรื่องความสุ่มและความเป็นอิสระ ต่อไปจะพูดถึงเรื่องการเป็นตัวแปรสุ่มแบบปกติ และ ความเท่ากันของความแปรปรวน
สมมติฐานการเป็นตัวแปรสุ่มแบบปกติคืออะไร (What is the assumption of Normality) ก่อนการทดสอบทางสถิติ คุณจะต้องหาว่าข้อมูลนั้นมีการแจกแจงอะไร ซึ่งถ้าคุณไม่ได้ทำการหาการแจกแจงของข้อมูลก่อนอาจทำให้คุณเลือกเครื่องมือในการทดสอบไม่เหมาะสม วิธีทางสถิติหลายๆอย่างจะมีข้อระบุสมมติฐานว่าข้อมูลจะต้องมีการแจกแจงแบบปกติ ซึ่งได้แก่ การทดสอบ t ของแบบประชากรเดี่ยว และ ประชากรสองกลุ่ม ความสามารถของกระบวนการ (Process Capability) I-MR และ ANOVA ถ้าข้อมูลที่ได้มาไม่เป็นไปตามการแจกแจงแบบปกติ คุณจะต้องไปใช้เครื่องมือทดสอบแบบไม่ใช้พารามิเตอร์แทน (non-parametric test) ซึ่งจะใช้ค่ามัธยฐานแทนการใช้ค่าเฉลี่ย หรือใช้วิธีแปลงข้อมูลของ Box-Cox หรือ Johnson (Box-Cox or Johnson Transformation) เพื่อทำให้ข้อมูลที่ไม่ได้มีการแจกแจงเป็นปกติมีการแจกแจงแบบปกติ แต่ว่าเครื่องมือทางสถิติหลายๆตัวที่มีสมมติฐานว่าข้อมูลต้องมีการแจกแจงเป็นปกติ ไม่ได้ต้องการให้ข้อมูลมีการแจกแจงแบบปกติอย่างทีเดียวเมื่อมีข้อมูลอย่างน้อย 15-20 ข้อมูล แต่ถ้าจำนวนสิ่งตัวอย่างมีน้อยกว่า 15 ตัว และข้อมูลไม่เป็นไปตามการแจกแจงแบบปกติ ค่า p-value ที่แสดงอาจมีค่าไม่ถูกต้อง และการแปลความหมายควรใช้ความระมัดระวังมากขึ้น
ใน Minitab มีเครื่องมือที่ใช้การหาว่ามีการแจกแจงแบบปกติหรือไม่อยู่หลายตัว และในที่นี้จะยกมา 2 เครื่องมือ คือ การทดสอบความเป็นปกติ (the Normality test) และ การใช้กราฟ (Graphical Summary)
Normality Test ใน Minitab จะทำการสร้างกราฟความน่าจะเป็น (Probability Plot) และทำการทดสอบสมมติฐานเพื่อดูว่าประชากรที่สิ่งตัวอย่างสุ่มมานั้นมีการแจกแจงแบบปกติหรือไม่ โดยสมมติฐานหลัก คือ ประชากรมีความเป็นปกติ (การแจกแจงแบบปกติ) และ สมมติฐานทางเลือก คือ ประชากรมีความไม่เป็นปกติ (ไม่มีการแจกแจงแบบปกติ)
เลือก Stat > Basic Statistics > Normality Test
ในการประเมินว่าข้อมูลมีการแจกแจงที่เหมาะสมหรือไม่ในเครื่องมือทดสอบการแจกแจงแบบปกติ
ค่าสถิติ Anderson-Darling คือ ค่าวัดของระยะห่างระหว่างจุดที่พล๊อตกับเส้นการแจกแจง (Fitted line) ในกราฟความน่าจะเป็น ค่าสถิติมาจากการคำนวณระยะห่างของจุดข้อมูลและเส้นแจกแจง แล้วทำการเปรียบเทียบค่าถ่วงน้ำหนักยกกำลังสอง (Weighted squared) ของชุดข้อมูลที่มีการแจกแจงที่เหมาะสม กรณีที่เป็นการแจกแจงแบบปกติควรมีค่าสถิติที่มีค่าน้อย
การใช้สถิติเชิงพรรณนา (Descriptive Statistic)ของ Minitab คือการใช้ผลสรุปของกราฟ ซึ่งนำมาใช้แสดงผลได้ดี อีกทั้งมีการคำนวณค่า Anderson-Darling และ ค่า P-value แสดงร่วมด้วย ผลสรุปของกราฟจะแสดงกราฟ 4 รูป คือ ฮีสโตแกรมที่มีเส้นโค้งปกติ กราฟสี่เหลี่ยม (Box-plot) 95% ช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยและค่ามัธยฐาน
เลือก Stat > Basic Statistics > Graphical Summary
ในการแปลความหมายสำหรับการทดสอบการแจกแจงแบบปกติ
สำหรับบางกระบวนการ เช่น ข้อมูลเวลาและรอบเวลา ข้อมูลอาจจะไม่มีการแจกแจงแบบปกติ ข้อมูลที่ไม่ได้มีการแจกแจงแบบปกติ
อาจจะใช้กับเครื่องมือบางตัวได้ดี ขอเพียงตรวจสอบให้มั่นใจว่าตรงตามความต้องการในการวิเคราะห์นั้นหรือไม่
สมมติฐานความเท่ากันของความแปรปรวนคืออะไร (What is the Assumption of Equal Variance?)
ความแปรปรวนจะหมายถึงการกระจายตัวของข้อมูล (Spread or scatter) การทดสอบทางสถิติ เช่น การวิเคราะห์ความแปรปรวน (ANOVA) สมมติว่าข้อมูลที่แตกต่างกันซึ่งอาจจะมาจากประชากรที่มีค่าเฉลี่ยที่แตกต่างกัน แต่จะต้องมีความแปรปรวนที่เท่ากัน ความเท่ากันของความแปรปรวน (Equal Variances หรือ ความแปรปรวนคงที่ ทางสถิติเรียกว่า Homoscedasticity) ซึ่งจะแสดงค่าความแปรปรวนที่ใกล้เคียงกันตลอดในทุกกลุ่มสิ่งตัวอย่าง
ความแปรปรวนที่ไม่เท่ากัน Unequal Variances หรือ ความแปรปรวนไม่คงที่ ทางสถิติเรียกว่า Heteroscedasticity) จะส่งผลต่อ ค่าความคลาดเคลื่อน Type I และอาจทำให้เกิดผลลัพธ์บวกปลอม (False positive) ถ้าคุณทำการเปรียบเทียบค่าเฉลี่ยของสิ่งตัวอย่าง 2 กลุ่ม หรือ มากกว่า 2 เช่นการทดสอบ t ของประชากร 2 กลุ่ม และ ANOVA ความแปรปรวนที่แตกต่างกันอย่างมีนัยสำคัญ อาจจะส่งผลกระทบถึงความแตกต่างของค่าเฉลี่ยและทำให้ผลสรุปที่ได้ไม่ถูกต้อง
Minitab มีเครื่องมือในการทดสอบความเท่ากันของความแปรปรวนอยู่หลายวิธี การเลือกใช้วิธีการใดขึ้นกับประเภทของข้อมูลที่มี คุณยังสามารถใช้คำสั่งใน Minitab คือคำสั่ง Assistant เพื่อตรวจสอบสมมติฐาน (เมื่อคุณเลือกใช้ Minitab Assistant ให้เลือก “More” เพื่อดูว่าข้อแนะนำในการเก็บข้อมูลและข้อมูลที่เกี่ยวกับการคำนวณที่ Minitab ใช้ในการวิเคราะห์ข้อมูล)
หลังจากการวิเคราะห์ Minitab จะทำการแสดง Diagnostic Report เพื่อแปลผลการทดสอบและใน Report Card เพื่อเตือนให้รู้ถึงข้อมูลที่ไม่ปกติ สมมติฐานใดที่ไม่ตรงตามที่กำหนด (ในการใช้การใช้เครื่องมือ 2-Sample t และ ANOVA, ใน Assistant จะใช้แนวความคิดที่ให้ความระมัดระวังมากขึ้นไม่ได้ขึ้นกับว่าข้อมูลนั้นมีความแปรปรวนเท่าหรือไม่)
เหตุผลที่แท้จริงที่ต้องทำการตรวจสอบสมมติฐาน คือ
คุณได้ใช้เวลาและความพยายามในการเก็บและวิเคราะห์ข้อมูล และเมื่อทำงานเสร็จทั้งหมด คุณจะเริ่มการวิเคราะห์ ซึ่งคุณต้องการได้ผลสรุปที่มีความถูกต้อง และความมั่นใจว่าสิ่งที่เก็บข้อมูลมานั้นได้แสดงความแตกต่างที่เห็นว่าเป็นความแตกต่างที่มาจากความสุ่ม หรือ เป็นเพราะประชากรนั้นมีความแตกต่างเกิดขึ้นจริงๆ
การเก็บข้อมูลเพื่อการวิเคราะห์ไม่ใช่เรื่องยากอะไร แต่คงเป็นการดีกว่าถ้าเราจะใช้เวลาทำความเข้าใจว่าข้อมูลต้องเกิดขึ้นภายใต้สมมติฐานใดบ้างเพื่อจะนำไปใช้ในการทดสอบทางสถิติต่อไปได้ตามแผนที่วางไว้
ในบทความต่อไปจะทบทวนเกี่ยวกับ ความเสถียร (Stability) และระบบการวัด (Measurement system
บทความต้นฉบับ : http://blog.minitab.com/blog/quality-business/common-assumptions-about-data-part-2-normality-and-equal-variance
เนื้อหาบทความโดยบริษัท Minitab Inc. ประเทศสหรัฐอเมริกา แปลและเรียบเรียงโดยสุวดี นําพาเจริญ และ ชลทิขา จํารัสพร, บริษัท โซลูชั่น เซ็นเตอร์ จํากัด webadmin@solutioncenterminitab.com
บทความนี้เกิดจากการเขียนและส่งขึ้นมาสู่ระบบแบบอัตโนมัติ สมาคมฯไม่รับผิดชอบต่อบทความหรือข้อความใดๆ ทั้งสิ้น เพราะไม่สามารถระบุได้ว่าเป็นความจริงหรือไม่ ผู้อ่านจึงควรใช้วิจารณญาณในการกลั่นกรอง และหากท่านพบเห็นข้อความใดที่ขัดต่อกฎหมายและศีลธรรม หรือทำให้เกิดความเสียหาย หรือละเมิดสิทธิใดๆ กรุณาแจ้งมาที่ ht.ro.apt@ecivres-bew เพื่อทีมงานจะได้ดำเนินการลบออกจากระบบในทันที