ปัจจุบันข้อมูลที่เราใช้งานกันอยู่ในชีวิตประจำวันมีจำนวนมหาศาล ด้วยข้อมูลที่ได้รับมาจากช่องทางต่างๆ ไม่ว่าจะเป็น ข้อมูลการเงิน การธนาคาร ข้อมูลจากระบบซอฟต์แวร์ต่างๆ ในแต่ละองค์กร ข้อมูลจากอุปกรณ์ IoT ที่มีการใช้งานอย่าแพร่หลายในทั่วโลก รวมไปถึงข้อมูลจาก Social Media ต่างๆ ไม่ว่าจะเป็น Facebook, Twitter ฯลฯ
ซึ่งมีสถิติของจำนวนข้อมูล และ การคาดคะเนถึงจำนวนข้อมูลที่น่าสนใจ ดังนี้
มีการเพิ่มขึ้นของจำนวนข้อมูลจะเป็น 2 เท่าตัว ในทุกๆ 2 ปี ทำให้ในปี ค.ศ. 2020 จำนวนของขนาดข้อมูลที่มีการเก็บบันทึกจะมีจำนวนมากถึง 40 ZettaByte โดยอาจจะเพิ่มขึ้นเป็น 44 ZettaByte ได้ โดยขึ้นอยู่กับการใช้งานของอุปกรณ์ IoT
มีการค้นหาข้อมูลใน Google มากถึง 40,000 การค้นหา ใน 1 วินาที มีการค้นหา 3.46 ล้านการค้นหาใน 1 วัน
ทุกๆ นาที ผู้ใช้งาน Facebook มีการส่งข้อความหากันมากถึง 31.25 ล้านข้อความ และมีการดู Video ใน Facebook จำนวนถึง 2.77 ล้าน Video
ข้อมูลที่ใช้งานในปี 2020
การค้นหาใน Google
ต่อวินาที
ข้อความ ใน Facebook Message ต่อวินาที
Video ที่ถูกเปิดดูใน Facebook ต่อวินาที
Structured Data vs Unstructured Data
ในองค์กรของเราเองก็เช่นกัน ข้อมูลที่อยู่ในระบบต่างๆ ขององค์กร ไม่ว่าจะเป็น ระบบบัญชี ระบบจัดซื้อจัดขาย ระบบคลังสินค้า ระบบบริหารจัดการบุคลากร ระบบการบริหารโปรเจค ฯลฯ บางที่มีการใช้งานซอฟต์แวร์ที่เก็บอยู่ในรูปแบบ Structured Data บางที่มีการเก็บข้อมูลในรูปแบบ csv, excel และรูปแบบอื่นๆ ที่อาจจะไม่ได้อยู่ในลักษณะ Structured Data เราจะเรียกว่าเป็น Unstructured Data ทำให้ข้อมูลมีอยู่หลากหลายและกระจัดการจาย ไม่เป็นแบบแผน การเรียกดูข้อมูลร่วมกันก็เป็นไปได้ยาก ทำให้ต้องมีการจัดเก็บข้อมูลด้วยกรรมวิธีต่างๆ ที่เหมาะสม เพื่อให้อยู่ในรูปแบบที่ได้ตกลงกันไว้ และเป็นแบบแผนร่วมกัน ใช้ได้ทุกภาคส่วนภายในองค์กร หรือจะนำข้อมูลไปแบ่งปันให้กับองค์กรอื่นๆ ได้ โดนผ่าน Web Service ต่างๆ


กระบวนการจัดการข้อมูล Data Prep
ดังนั้นการจัดการเตรียมข้อมูลเพื่อรวมข้อมูลเข้าสู่ฐานกลางนั้น เป็นเรื่องจำเป็นอย่างยิ่งสำหรับทุกๆองค์กรที่มีข้อมูลอยู่ โดยการนำข้อมูลจากแต่ละที่มารวบรวมและประมวลผลจัดกลุ่มนั้น เราจะเรียกว่าเป็นขั้นตอนการทำ Data Preparation เพื่อนำเข้าสู่กระบวนการทำ ETL (Extract Transform Load) เพื่อให้ข้อมูลถูก นำแสดงออกมา > แก้ไขให้ถูกต้อง > นำเข้าสู่ฐานข้อมูลส่วนกลาง Data Lake หรือเราจะเรียกว่า Data Warehouse ก็ได้ เพื่อนำข้อมูลเหล่านี้ไปจัดทำเป็นรายงานในรูปแบบ Visualization เพื่อตอบโจทย์ในมุมมองของผู้บริหารโดยผ่าน Data Analytics Tools ต่างๆ เช่น Tableau, Power BI และ Apache Superset
การจัดการข้อมูลจากหลากหลายแหล่งไม่ใช่เรื่องยากอีกต่อไป
เราค้นพบว่าวิธีการจัดการข้อมูลนั้นง่ายเพียงปลายนิ้ว
ขั้นตอนการทำ Data Prep นั้นมี Process การพัฒนาค่อนข้างยาวนาน และต้องใช้การโปรแกรมมิ่งด้วยภาษา Python, R ด้วยโปรแกรมเมอร์ แต่ Alteryx นั้น มีส่วนของการใช้งานที่ร่นระยะเวลาในการเขียนโปรแกรม เป็นการลาก Control ที่ใช้งานในส่วนของการทำข้อมูลต่างๆ มาวางเป็น Workflow ให้ คนทั่วไป สามารถใช้งานได้อย่างง่ายดาย ด้วย Concept การทำข้อมูลแบบ Self-Managed ที่ทาง Alteryx มองว่าทุกคนสามารถทำข้อมูลได้ ไม่ว่าจะเป็น ผู้บริหาร นักบัญชี นักการตลาด หรือแม้กระทั่งผู้ที่สนใจอาชีพ Data Scientist
ทางเราได้เป็น Partner อย่างเป็นทางการกับซอฟท์แวร์ Alteryx ซึ่งสามารถช่วยเหลือในการสอนการใช้งาน การออกแบบโครงสร้างรูปแบบของข้อมูล (Data Modeling) การขาย License ของ Alteryx Desktop และ Alteryx Server รวมไปถึงการให้คำแนะนำการเริ่มต้นการทำ Data ให้กับองค์กรของคุณในทุกรูปแบบ ถ้าสนใจทำเรื่อง Data สามารถติดต่อกับทางทีมเราได้
