Imputation Tool เป็นเครื่องมือใช้จัดการข้อมูลที่เป็นค่า null เช่นเดียวกับ Data Cleansing Tool แต่สามารถเปลี่ยนค่า null เป็นค่าอื่นๆ ที่ต้องการได้ รวมถึงแนะนำ Unique Tool ซึ่งเป็นเครื่องมือที่ใช้คัดข้อมูลที่ซ้ำกันออกได้ง่ายอีกด้วย
Imputation Tool
Imputation Tool เป็นเครื่องมือที่ใช้จัดการข้อมูลที่มีค่า null หรือค่าที่ต้องการให้แทนที่ ด้วยค่าเฉลี่ย มัธยฐาน ฐานนิยม หรือค่าเฉพาะที่ต้องการ
นำ Input Data มาเชื่อมต่อกับ Imputation Tool ตัวเลือกต่างๆ ในเครื่องมือมีดังนี้
เลือกคอลัมน์ที่ต้องการจัดการข้อมูล
เลือกค่าของข้อมูลที่ต้องการจะเปลี่ยน จากค่า null หรือ จากค่าเฉพาะที่ต้องการ
เลือกค่าที่จะทำไปแทนที่ มีให้เลือกทั้ง ค่าเฉลี่ย มัธยฐาน ฐานนิยม หรือค่าเฉพาะที่ต้องการ
ทั้งสองตัวเลือกมีรายละเอียดดังนี้
4.1 เพิ่มคอลัมน์ที่จะบอกว่าค่าในข้อมูลช่องที่อ้างอิงมีค่าเป็น null หรือไม่ ถ้าใช่จะมีค่าเป็น 1 ถ้าไม่ใช่จะมีค่าเป็น 0
4.2 ค่าที่ทำการแก้ไขจะเพิ่มเป็นคอลัมน์ใหม่ ไม่แก้ในคอลัมน์เดิม
ตัวอย่างการใช้ Imputation Tool
จากรูปด้านบนเป็นตัวอย่างข้อมูลที่จะใช้เป็นตัวอย่าง ข้อมูลจะมีบางช่องที่มีค่า null
ตัวอย่าง ที่ 1
เปลี่ยนข้อมูลมีที่ค่า null ให้เป็น 0
ตัวอย่างที่ 2
เปลี่ยนข้อมูลมีที่ค่า null ให้เป็น ค่าเฉลี่ยของข้อมูล
ตัวอย่างที่ 3
เปลี่ยนข้อมูลมีที่ค่า null ให้เป็น 0 แล้วเพิ่มในคอลัมน์ใหม่
ตัวอย่างที่ 4
เพิ่มคอลัมน์ที่บ่งบอกว่าช่องไหนที่มีค่า null ให้มีค่าเป็น 1
Unique Tool
Unique Tool เป็นเครื่องมือที่ใช้จัดการข้อมูลนำข้อมูลที่ซ้ำกันออก สามารถเลือกให้พิจารณาหลายคอลัมน์ได้ โดยข้อมูลที่ออกมาจะมีสองส่วน ขา U จะเป็นข้อมูลที่ไม่ซ้ำกัน และขา D จะเป็นข้อมูลที่ซ้ำที่แยกออกมา
นำ Input Data มาเชื่อมต่อกับ Unique Tool ตัวเลือกต่างๆ ในเครื่องมือมีดังนี้
สามารถเลือกจัดกลุ่มคอลัมน์ที่ซ้ำกันออกได้ เช่น ในตัวอย่างเลือกทั้ง FirstName และ LastName ข้อมูลจะถูกคัดออกเมื่อข้อมูลทั้งสองคอลัมน์ซ้ำกัน
ตัวอย่างการใช้ Unique Tool
จากรูปเป็นตัวอย่างข้อมูลที่จะนำมาใช้ จะเห็นข้อมูลที่ซ้ำกัน จะเลือกข้อมูลที่ชื่อ และนามสกุลซ้ำกันออกด้วย Unique Tool
เลือกคอลัมน์ FirstName และ LastName ข้อมูลที่ซ้ำจะออกมาอยู่ที่ขา D
จากทั้งสองบทความเราได้เรียนรู้การทำ Data Cleansing อย่างง่ายๆ โดยใช้โปรแกรม Alteryx จาก Data Cleansing tool, Imputation tool และ Unique Tool กันไปแล้ว ซึ่งผู้ใช้งาน Alteryx สามารถใช้งานได้ง่ายมากโดยไม่ต้องเขียนโค้ด และยังช่วยลดระยะเวลาในการจัดการข้อมูลได้มาก