จะทำโมเดลทั้งที แต่มีข้อมูลสูญหาย (Missing Data) ควรทำอย่างไรดี ? [EP.2/2]
ภาคต่อจากบทความที่แล้ว สำหรับบทความนี้ เราจะมาเรียนรู้เกี่ยวกับเจ้า Missing Value ตัวปัญหากันค่ะ เชื่อว่าหลายคนที่อยู่ในวงการ Data ต้องเคยพบเจอปัญหานี้กันไม่มากก็น้อย สำหรับผู้เขียนเองก็เจอปัญหานี้บ่อยมากในการทำงานเช่นกัน
27 July, 2021 by
จะทำโมเดลทั้งที แต่มีข้อมูลสูญหาย (Missing Data) ควรทำอย่างไรดี ? [EP.2/2]
Jutarut Junchaiyapoom (Tak)
| No comments yet

 

วิธีการจัดการข้อมูลสูญหาย
(Missing Data Management)

วิธีการจัดการข้อมูลสูญหาย

1. วิธีการลบข้อมูล (Listwise Deletion or Complete Case Analysis)

           กรณีที่ข้อมูลสูญหายเกิดขึ้นหลายตัวแปร แต่ปริมาณการสูญหายไม่เกิน 5% ของข้อมูลทั้งหมด เราก็จะตัดหรือลบข้อมูลส่วนที่สูญหายออกทั้ง record นะ ถือเป็นวิธีพื้นฐานที่นิยมใช้กัน

*ข้อดีคือง่ายและสามารถวิเคราะห์เชิงเปรียบเทียบระหว่างตัวแปรได้ เพราะแต่ละตัวแปรมีขนาดเท่ากัน

**แต่ข้อเสียที่เกิดขึ้นคือ ผลลัพธ์ที่ได้จากการวิเคราะห์เชื่อถือไม่ได้ 100% เนื่องจากมีข้อมูลบางส่วนถูกตัดออกไป ทำให้ข้อมูลไม่ครบถ้วนสมบูรณ์ ที่แย่ไปกว่านั้นคือ ถ้าข้อมูลที่สูญหายมีลักษณะกระจายตัว การตัดข้อมูลสูญหายทิ้งอาจจะทำให้ข้อมูลมีความเอนเอียง เบซ้าย เบ้ขวา เนื่องจากข้อมูลของกลุ่มตัวอย่างแต่ละกลุ่มถูกตัดออกไม่เท่ากัน

2. วิธีการประมาณค่าข้อมูลสูญหาย (Imputation Methods)

            เป็นวิธีการประมาณค่าสูญหายโดยเอาหลักการทางคณิตศาสตร์ มาเติมเต็มค่าที่สูญหายไป ทำให้ผลลัพธ์สุดท้ายคล้ายกับว่าไม่เคยมีข้อมูลสูญหายเกิดขึ้นมาก่อนเลย ซึ่งมีหลากหลายวิธีมากแต่ในที่นี้ขอยกมาแค่ 2 วิธี ดังต่อไปนี้

 ◾ วิธีการประมาณค่าด้วยค่าเฉลี่ย (Mean Imputation: MI)

        วิธีการประมาณค่าด้วยค่าเฉลี่ยเป็นวิธีการคำนวณหาค่าเฉลี่ยของตัวแปรอิสระ (X) จากชุดข้อมูลที่ปรากฎอยู่ เพื่อแทนค่าข้อมูลสูญหายของตัวแปรตาม (Y) ซึ่งวิธีดังกล่าวถือเป็นวิธีจัดการค่าข้อมูลสูญหายที่ง่าย ไม่ซับซ้อน แต่วิธีดังกล่าวอาจะทำให้ค่าประมาณที่ได้เป็นค่าเอนเอียงได้เหมือนกันถ้าชุดข้อมูลมี outlier

สูตรการคำนวณสำหรับวิธีการประมาณค่าด้วยค่าเฉลี่ย (MI)

◾ วิธีการถดถอย (Regression Imputation: RI)

        วิธีการประมาณค่าด้วยวิธีการถดถอยเป็นลักษณะการประมาณค่าตัวแปรที่ต้องการศึกษา โดยอาศัยความสัมพันธ์ระหว่างตัวแปรอิสระ (X) และตัวแปรตาม (Y) มาช่วยในการประมาณค่า ถ้าชุดข้อมูลที่มีอยู่มีความสัมพันธ์กัน วิธีนี้ก็ถือว่าเป็นวิธีที่น่าสนใจเลยทีเดียวเพราะวิธีการคำนวณยังไม่ยุ่งยาก ซับซ้อนมากนัก

สูตรการคำนวณสำหรับวิธีการถดถอย (RI)

3. วิธีการขั้นสูง (Advanced Methods)

            วิธีการขั้นสูงนี้เป็นลักษณะของการประมาณค่าด้วยวิธีการคำนวณที่มีความซับซ้อนมากขึ้นไปอีก ซึ่งในที่นี้จะขอเล่าคร่าวๆ ถึง 3 วิธีดังต่อไปนี้

◾ วิธีการประมาณค่าด้วยวิธีเอ็มไอ (Multiple Imputation)

        วิธีการประมาณค่าด้วยวิธีเอ็มไอเป็นลักษณะการประมาณค่าด้วยวิธีการแทนค่าหลายค่าลงในชุดข้อมูลสูญหาย โดยทำการประมาณค่าตั้งแต่ 2 วิธีขึ้นไป ภายใต้เงื่อนไขการกระจายข้อมูลสูญหายแบบสุ่ม ซึ่งประกอบด้วย 3 ขั้นตอน ดังนี้

ขั้นตอนที่ 1 คือ ทำการประมาณค่าข้อมูลสูญหายแต่ละวิธี เพื่อมาเติมเป็นชุดข้อมูลที่สมบูรณ์

ขั้นตอนที่ 2 คือ วิเคราะห์ข้อมูลแต่ละชุดแยกกัน เพื่อประมาณค่าข้อมูลสูญหาย

ขั้นตอนที่ 3 คือ รวบรวมผลลัพธ์ที่ได้มาสรุปค่าที่จะใช้แทนค่าข้อมูลสูญหายทั้งหมด

วิธีการประมาณค่าด้วยวิธีเอ็มไอ (Multiple Imputation)

◾ วิธีการประมาณค่าโดยวิธีอีเอ็ม (Expectation Maximization Algorithm: EM Algorithm)

      วิธีการประมาณค่าด้วยวิธีอีเอ็มเป็นลักษณะการประมาณค่าโดยอาศัยหลักการพื้นฐาน Maximum Likelihood Estimation โดยประกอบด้วย 2 ขั้นตอน นั่นคือ ขั้นตอนการประมาณค่าคาดหวัง (Expectation: E step) โดยใช้วิธีการประมาณค่าด้วย log-likelihood และขั้นตอนการใช้ค่าสูงสุด (Maximization: M step) คือขั้นตอนการแทนค่าข้อมูลสูญหายด้วยค่าที่ได้จากขั้นตอนการประมาณค่าคาดหวัง จากนั้นดำเนินการประมาณค่าคาดหวังซ้ำเพื่อเปรียบเทียบ จนได้ค่าที่ไม่เปลี่ยนแปลงหรือ เปลี่ยนแปลงน้อยมาก และใช้ค่าดังกล่าวแทนค่าข้อมูลสูญหาย 🔺ข้อดีของวิธีนี้คือ การได้ใช้ข้อมูลครบทุกตัวอย่าง ทั้งที่มีข้อมูลสูญหายและไม่มีข้อมูลสูญหาย อีกทั้งไม่เกิดความเอนเอียงหากข้อมูลสูญหายมีการกระจายตัวแบบข้อมูลสูญหายแบบสุ่ม

วิธีการประมาณค่าด้วยวิธีการประมาณค่าโดยวิธีอีเอ็ม (EM Algorithm)


◾ วิธีการประมาณค่าโดยวิธีเพื่อนบ้านใกล้เคียง (K-Nearest Neighbor: KNN)

    เป็นการประมาณค่าสูญหายด้วยค่าเฉลี่ยของข้อมูลที่ทราบค่า จำนวน K ตัว ที่ไม่ใช่ข้อมูลสูญหายอีกทั้งยังมีลักษณะคล้ายคลึงกับข้อมูลสูญหายมากที่สุด ซึ่งโดยทั่วไปจะกำหนดให้ K มีค่าประมาณเท่ากับ sqrt(m) โดยที่ K เป็นจำนวนคี่ที่มีค่าใกล้เคียงกับ sqrt(m) มากที่สุด เมื่อ m คือจำนวนข้อมูลไม่สูญหาย พิจารณาจากระยะห่างยุคลิด (Euclidean Distance) ของข้อมูลไม่สูญหาย

สูตรแสดงวิธีการประมาณค่าด้วยวิธีเพื่อนบ้านใกล้เคียง (K-Nearest Neighbor: KNN)


        จากทั้งหมดที่เล่าไป เป็นแค่วิธีการจัดการ Missing Value ส่วนหนึ่งเท่านั้น เนื่องจากปัญหานี้มีผู้คิดค้นทำวิจัยจนเกิดเป็นทฤษฎีต่างๆ มากมาย ดังนั้น สำหรับผู้ที่สนใจอยากรู้ข้อมูลเพิ่มเติมสามารถศึกษาเพิ่มได้จาก Reference ด้านล่างนี้


Reference

  • Little, R.J.A and Rubin, D.B. 1987. Statistical Analysis with Missing Data. New York: Wiley.

  • Soley-Bori, M. 2013. “Dealing with missing data: Key assumptions and methods for applied analysis”. Boston University School of Public Health Department of Health Policy & Management. 4 (May): 1–10.

  • รัตติกาล จอมประพันธ์. 2555. การประมาณค่าสูญหายในการวิเคราะห์การถดถอยเชิงเส้นพหุคูณ. การค้นคว้าอิสระปริญญามหาบัณฑิต สถาบันพัฒนบริหารศาสตร์.





จะทำโมเดลทั้งที แต่มีข้อมูลสูญหาย (Missing Data) ควรทำอย่างไรดี ? [EP.2/2]
Jutarut Junchaiyapoom (Tak) 27 July, 2021
Share this post
Archive
Sign in to leave a comment