จะทำโมเดลทั้งที แต่มีข้อมูลสูญหาย (Missing Data) ควรทำอย่างไรดี ? [EP.1/2]
ก่อนที่เราจะไปเรียนรู้กับวิธีจัดการข้อมูลสูญหาย (Missing Data) เราจะพามารู้จักกับประเภทของข้อมูลสูญหายกับรูปแบบของข้อมูลสูญหายกันก่อนค่ะ
16 June, 2021 by
จะทำโมเดลทั้งที แต่มีข้อมูลสูญหาย (Missing Data) ควรทำอย่างไรดี ? [EP.1/2]
Jutarut Junchaiyapoom (Tak)
| No comments yet

 

Imputation Method in Missing Data

หรือการประมาณค่าข้อมูลสูญหาย

กรณีข้อมูลสูญหายแบบสุ่ม

จงเติมคำในช่องว่างนี้

          ลองสมมติว่าเราส่งรูปนี้ให้คนที่เราแอบชอบคนหนึ่ง ลองคิดภาพสิ คำตอบที่คนๆ หนึ่งจะสามารถเติมลงไปได้นั้นมันช่างหลากหลายเหลือเกิน ถ้าเขาส่งคำตอบกลับมาแล้ว เราค้นพบว่าสิ่งที่เขาตอบไม่ได้ตรงตามใจที่เราคิดไว้เลย เราคงจะเศร้าเท่านี้เราก็น่าจะพอเห็นภาพแล้วว่า การจัดการกับ Missing value นี้ ช่างมีผลกระทบต่อชีวิตและจิตใจได้เลยทีเดียว

ประเภทของข้อมูลสูญหาย

แบ่งได้ทั้งหมด 3 ประเภท ดังนี้

1. ข้อมูลสูญหายแบบสุ่มสมบูรณ์ (Missing Completely at Random Data: MCAR)
          ความน่าจะเป็นของค่าสูญหายของตัวแปร Y ไม่ขึ้นอยู่กับค่าที่มีอยู่ของตัวแปร Y หรือค่าที่มีอยู่ของตัวแปรอื่น แต่ก็ยังมีความเป็นไปได้ที่ค่าที่สูญหายของตัวแปร Y อาจจะมีความสัมพันธ์กับค่าข้อมูลสูญหายของตัวแปร X บางตัวก็เป็นได้ 
          สรุปง่ายๆ คือ ความน่าจะเป็นที่ค่าที่หายไปของตัวแปร Y อาจจะมีความสัมพันธ์กับค่าที่หายไปของตัวแปร X นั่นเอง

2. ข้อมูลสูญหายแบบสุ่ม (Missing at Random: MAR)
           ความน่าจะเป็นของการสูญหายของตัวแปร Y ไม่ขึ้นอยู่กับค่าที่มีอยู่ของตัวแปร Y แต่ขึ้นอยู่กับค่าของตัวแปรอื่นที่ทราบค่า (ในที่นี้จากรูปด้านล่างเราให้เป็นตัวแปร X) สามารถเขียนให้อยู่ในรูปสมการ P(Y missing | Y, X) = P(Y missing | X) 
          ภาษามนุษย์ก็คือ ความน่าจะเป็นของค่าที่หายไปของตัวแปร Y อาจจะขึ้นอยู่กับค่าของตัวแปรอื่นที่ทราบค่าเช่นตัวแปร X

3. ข้อมูลสูญหายแบบไม่สุ่ม (Not Missing at Random: NMAR)
          ค่าสูญหายของตัวแปร Y ขึ้นอยู่กับค่าของตัวแปร Y ที่สูญหาย

ประเภทของข้อมูลสูญหาย

รูปแบบของข้อมูลสูญหาย

สามารถแบ่งได้ 2 รูปแบบ ดังนี้

1. ข้อมูลสูญหายรูปแบบทิศทางเดียวกัน (Missing Monotone)                                                                   ข้อมูลสูญหายที่หายแบบมีรูปแบบ หรือมีแบบแผนที่สังเกตได้ ซึ่งบางครั้งอาจจะต้องออกแรงจัดเรียงลำดับหรือจัดเรียงชุดข้อมูลใหม่สักหน่อย เพื่อที่จะมองเห็น Pattern การหายไปได้

2. ข้อมูลสูญหายไม่มีรูปแบบ (Missing Arbitrarily)                                                                                        ข้อมูลสูญหายแบบไม่มีระบบ ไม่มีแบบแผนใดๆ กระจายตัวมั่วซั่วในบางช่วงของตัวแปรหรือในบางช่วงของข้อมูลชุดเดียวกันก็เป็นได้หมดเลย

รูปแบบของข้อมูลสูญหาย

          จากที่เล่าไปก็พอเห็นภาพแล้วว่า เจ้าข้อมูลสูญหายเนี่ยมีหลายแบบอีก ในบทความหน้า ER.2/2 Roots จะมาเล่าต่อในเรื่องของวิธีการจัดการข้อมูลสูญหาย ซึ่งมีความน่าสนใจมาก ฝากติดตามอ่านกันด้วยนะคะ

จะทำโมเดลทั้งที แต่มีข้อมูลสูญหาย (Missing Data) ควรทำอย่างไรดี ? [EP.1/2]
Jutarut Junchaiyapoom (Tak) 16 June, 2021
Share this post
Archive
Sign in to leave a comment