ข้อมูลอนุกรมเวลา (time series data) ถือเป็นสิ่งที่มีประโยชน์อย่างมากในหลายๆอุตสาหกรรม อย่างไรก็ตามการเลือกใช้ตัวแบบใดแบบหนึ่งโดยเฉพาะไม่สามารถเลือกทำได้ตรงๆกับในทุกๆกระบวนการ แต่ต้องมีการดูถึงองค์ประกอบต่างๆ รวมไปถึงต้องมีการทดสอบตัวแบบหลายๆตัวเพื่อให้ได้ตัวแบบที่เหมาะสมที่สุด และการที่เราจะได้ตัวแบบที่เหมาะสมที่สุดนั้นควรทำอย่างไร ในบทความนี้จะพูดถึงเรื่องเหล่านี้เพื่อให้เป็นแนวทางในการที่เราจะดูว่าข้อมูลที่เรามีนั้นในทางปฏิบัติเราจะเลือกตัวแบบไหนมาใช้งานเพื่อให้เหมาะสมที่สุด
อนุกรมเวลาทำงานอย่างไร (How Does a Time Series Work?)
มาเริ่มต้นดูกันว่าอนุกรมเวลามีการทำงานอย่างไร และเราจะใช้แนวคิดของการสร้างตัวแบบ ARIMA มาใช้ได้อย่างไร
โดยทั่วไปแล้วมี 2 แนวคิดที่เราจะใช้ในการสร้างตัวแบบอนุกรมเวลา แนวคิดที่หนึ่ง คือ ใช้ข้อมูลในอดีต ซึ่งตัวแบบนี้เรียกว่า AR (autoregressive) ซึ่งเป็นการทำนายข้อมูลที่จะเกิดโดยใช้จำนวนข้อมูลในอดีตจำนวนหนึ่งมาเป็นฐานในการทำนายข้อมูล ตัวแบบ AR(1) จะใช้ข้อมูลในอดีตจำนวน 1 ข้อมูลเพื่อมาทำนายข้อมูลที่จะเกิดในอนาคต
แนวคิดที่สองคือ ใช้ค่าความคลาดเคลื่อนที่เกิดขึ้นจากทำนายของข้อมูลในอดีต ซึ่งเรียกว่า ตัวแบบ MA (moving average) เช่น ตัวแบบ MA(1) คือตัวแบบที่ใช้ทำนายข้อมูลโดยอาศัยค่าความคลาดเคลื่อนในอดีตจำนวน 1 ค่า เพื่อมาทำนายข้อมูล
จากทั้งสองแนวคิดมีความแตกต่างกันในการใช้ข้อมูลมาทำนายข้อมูลในอนาคต ดังนั้นเราจะใช้ตัวแบบที่มีการรวมเอาทั้งสองแนวคิดเข้าด้วยกัน ซึ่งเรียกว่า ตัวแบบ ARIMA ที่มีการใช้ทั้งค่าข้อมูลอดีตและค่าความเคลื่อนของข้อมูลในอดีตเพื่อการทำนายข้อมูล
ตัวอย่างในการสร้างตัวแบบอนุกรมเวลา
จากตัวอย่างนี้จะเห็นว่าเราไม่สามารถสร้างตัวแบบที่เหมาะสมได้ โดยข้อมูลอนุกรมเวลาที่เรานำมาเป็นตัวอย่างแสดงให้เห็นในภาพด้านล่างนี้ มาดูกันว่าเราเห็นอะไรบ้าง
เริ่มจากสิ่งแรก เราจะต้องดูว่าข้อมูลอนุกรมเวลาของนั้นมีความนิ่ง (stationary) หรือไม่ ข้อมูลอนุกรมเวลาแบบ Stationary คือ ข้อมูลนั้นมีค่าเฉลี่ยและค่าความแปรปรวนคงที่ตลอดช่วงเวลา ซึ่งจากกราฟข้อมูลจะเห็นได้ว่าค่าเฉลี่ยของข้อมูลไม่ได้คงที่ตลอดเวลา แต่มีค่าลดลง
เพื่อแก้ปัญหาในจุดนี้ เราจะเริ่มจากการหาความต่างของข้อมูล โดยใน Minitab ใช้คำสั่ง Stat > Time Series > Differences และให้ค่าใน Lag มีค่าเท่ากับ 1 (การเลือกคำสั่งนี้ จะเป็นการนำข้อมูลมาลบกัน โดยข้อมูลตัวที่ n+1 ลบกับตัวที่ 1 เป็นค่า difference)
นำค่า lag 1 difference ของชุดข้อมูลมาสร้างกราฟจะได้ตามภาพนี้
ตอนนี้เราจะได้ค่าความต่างของข้อมูลซึ่งเป็นส่วนข้อมูลที่มีความนิ่ง และถือเป็นส่วนหนึ่งของตัวแบบ ARIMA ที่เรากำลังหาอยู่ โดยเป็นส่วนที่เรียกว่า “I” ซึ่งมาจากคำว่า "Integration" (การรวมกัน)
เท่ากับตอนนี้เราได้ ตัวแบบ ARIMA(p,1,q) ต่อไปเราจะทำการหาพจน์ของ AR ค่า p และพจน์ของ MA ค่า q ซึ่งส่วนนี้เราจะต้องทำการสร้างกราฟเพิ่มในส่วนของ ACF และ PACF
ACF มาจากคำว่า for Autocorrelation function ส่วน the PACF มาจากคำว่า Partial Autocorrelation function
เราจะใช้กราฟทั้งสองนี้ช่วยในการสร้างตัวแบบที่เหมาะสม Autocorrelation เป็นกราฟที่สร้างจากข้อมูลอนุกรมเวลา โดยนำค่าความสัมพันธ์ (correlation) ของข้อมูลที่ถูกแบ่งเป็นส่วนๆ โดยแต่ละส่วนจะถูกแบ่งในช่วง k หน่วยเวลา
ในทำนองเดียวกัน partial autocorrelations (PACF) จะทำการวัดระดับความสัมพันธ์ที่เกิดขึ้นของพจน์อื่นๆที่จะนำมารวมไว้ในตัวแบบ เช่นกรณีนี้ จาก partial autocorrelation ของ ค่า lag 4 เป็นความสัมพันธ์ที่เกิดใน lag 4 และใช้ได้ดีกับการอธิบายความสัมพันธ์ของ ค่า lag 1, 2, และ 3 ด้วย
ใน Minitab การหาPartial Autocorrelation จะใช้คำสั่ง Stat > Time Series > Partial Autocorrelation
กรณีตัวอย่างได้ทำการสร้างกราฟออกมาตามภาพด้านล่างนี้
จากกราฟเราจะได้อะไรบ้าง ในแต่ละกราฟแสดงรูปแบบให้เห็นชัดเจน และในรูปแบบเหล่านี้สามารถระบุค่า p และ q ให้เราได้อย่างไร มาดูกัน จากกราฟในส่วน PACF มีลักษณะค่อยๆเรียวเล็กลง(taper) เข้าใกล้ศูนย์ ถึงแม้จะมีแท่งที่เด่นสูงชัดขึ้น (spikes) ที่ lag 1 และ 2 แต่ในส่วนของกราฟ ACF จะมีลักษณะเรียวเล็กลง (taper) อย่างชัดเจน และ lag มีค่าลดลงจนเข้าใกล้ศูนย์
ACF Pattern | PACF Pattern | Conclusion |
มีลักษณะเรียวเล็กลงและวิ่งเข้าหาศูนย์ | มีค่าไม่เป็นศูนย์ที่ จำนวนข้อมูล p จุด (ชุดแรก) และมีค่าเป็นศูนย์ที่ตำแหน่งอื่นๆ | ตัวแบบ AR(p) |
มีค่าไม่เป็นศูนย์ที่ จำนวนข้อมูล q จุด (ชุดแรก) และมีค่าเป็นศูนย์ที่ตำแหน่งอื่นๆ | มีลักษณะเรียวเล็กลงวิ่งเข้าหาศูนย์ | ตัวแบบ MA(q) |
มีค่าเข้าใกล้ 1 แบบคงที่ ไม่มีลักษณะเรียวเล็กลง (taper) | มีค่าเข้าใกล้ 1 แบบคงที่ ไม่มีลักษณะเรียวเล็กลง (taper) | ข้อมูลไม่มีความนิ่ง (non-stationary) ต้องมีการทำ Difference |
ไม่มีความสัมพันธ์อย่างมีนัยสำคัญ | ไม่มีความสัมพันธ์อย่างมีนัยสำคัญ |
ข้อมูลมีลักษณะสุ่ม (Random Series) |
ถ้าตัวแบบมีทั้งพจน์ของ AR และ MA ซึ่งทำให้การแปลความหมายมีความยากยิ่งขึ้น โดยรูปแบบของทั้งสองอย่างจะมีลักษณะเรียวเล็กลงเข้าหาศูนย์ ซึ่งอาจจะมีแท่งสูงขึ้นเด่นชัด (spike) ของกราฟใน ACF และ/หรือ PACF ซึ่งทำให้ต้องทำการหาค่าที่ต้องกำหนดสำหรับพจน์ AR และ MA ก็อาจจะต้องทำการทดสอบตัวแบบหลายๆค่า เพื่อให้ได้ตัวแบบที่เหมาะสมที่สุด
ในกรณีนี้ต้องทำการจำลองใช้ตัวแบบขึ้นมาเพื่อทดสอบ ซึ่งจากตัวอย่างผลการทดสอบตัวแบบ ARIMA(1,1,1) น่าจะมีความเหมาะสมที่สุด อย่างไรก็ดีในชีวิตจริงข้อมูลที่ได้อาจจะมีรูปแบบไม่ชัดเจน จำเป็นจะต้องมีการทดสอบตัวแบบหลายๆอย่างเพื่อให้ได้ตัวเลือกสุดท้ายของตัวแบบที่เหมาะสมที่สุด
ในบทความต่อไปจะพูดถึงค่าวัดที่ช่วยในการวิเคราะห์ว่าตัวแบบใดจะเป็นตัวแบบที่เหมาะกับข้อมูลของเรามากที่สุด
บทความต้นฉบับ : https://blog.minitab.com/blog/starting-out-with-statistical-software/fitting-an-arima-model
เนื้อหาบทความโดยบริษัท Minitab Inc. ประเทศสหรัฐอเมริกา
แปลและเรียบเรียงโดยสุวดี นําพาเจริญ และ ชลทิชา จํารัสพร, บริษัท โซลูชั่น เซ็นเตอร์ จํากัด webadmin@solutioncenterminitab.com
บทความนี้เกิดจากการเขียนและส่งขึ้นมาสู่ระบบแบบอัตโนมัติ สมาคมฯไม่รับผิดชอบต่อบทความหรือข้อความใดๆ ทั้งสิ้น เพราะไม่สามารถระบุได้ว่าเป็นความจริงหรือไม่ ผู้อ่านจึงควรใช้วิจารณญาณในการกลั่นกรอง และหากท่านพบเห็นข้อความใดที่ขัดต่อกฎหมายและศีลธรรม หรือทำให้เกิดความเสียหาย หรือละเมิดสิทธิใดๆ กรุณาแจ้งมาที่ ht.ro.apt@ecivres-bew เพื่อทีมงานจะได้ดำเนินการลบออกจากระบบในทันที