Page 36 - 3.Big Data Analytics
P. 36
หลักสูตรการวิเคราะห์ข้อมูลขนาดใหญ่ 35
Section 15: Big Data processing
15.1 วัตถุประสงคการเรียนรู
1) เขาใจกระบวนการวิเคราะหขอมูลขนาดใหญ
15.2 กระบวนการวิเคราะหขอมูลขนาดใหญ
ในการประมวลผลขอมูลขนาดใหญจำเปนตองใชกระบวนการทาง วิทยาการขอมูล ซึ่งโดยทั่วไปกระบวนการ
ดังกลาวเริ่มตนจากการตั้งคำถามงายๆ ที่สนใจ จนนำไปสูการวิเคราะหและแสดงผลลัพธเพื่อตอบคำถาม โดยขั้นตอน
กระบวนการทาง วิทยาการขอมูล จะขออางอิงจาก Blitzstein และ Hanspeter ซึ่งไดแสดงขั้นตอนไวดังรูปที่ 15.1 สามารถ
อธิบายไดดังนี้
1. ตั้งคำถามที่นาสนใจ (Ask an Interesting Question เปนกระบวนการแรกเริ่มของกระบวนทาง วิทยาการ
ขอมูล โดยคำถามนั้นไมจำเปนตองซับซอนแตควรเปนคำถามงายๆ ซึ่งจะเปนตัวกำหนดทิศทางของกระบวนการถัดๆ ไป
เชน เปาหมายคืออะไร จะทำอะไรจากขอมูลที่มีอยู หรือ ตองการที่จะคาดการณหรือประเมินผลในเรื่องใดบาง เปนตน
2. เก็บขอมูล (Get the Data เปนขั้นตอนของการเก็บรวบรวมขอมูลทั้งแบบที่มีโครงสรางและไมมีโครงสราง
หลังจากที่เราทราบปญหาและรูวาหากตองการตอบปญหานั้นจะตองใชขอมูลอะไรบางและมาจากแหลงขอมูลใดบาง
3. สำรวจขอมูล (Explore the Data เปนการตรวจสอบข อมูลรวมถึงการแปลงขอมูลที่ไดจากขั้นตอนการเก็บ
ขอมูลใหเหมาะสมกอนที่จะนำเขาสูขั้นตอนการวิเคราะหขอมูล โดยในขั้นตอนนี้อาจใชการ plot ขอมูลเพื่อดูรูปแบบของ
ขอมูล ขอมูลมีความผิดปกติหรือไม ทั้งนี้ขอมูลที่ผานในกระบวนการนี้แลวตองมีความเหมาะสมสอดคลองกับแบบจำลองที่เรา
ตองการจะใชในการวิเคราะหขอมูล
4. สรางแบบจำลองเพื่อการวิเคราะหขอมูล ในขั้นตอนนี้ถือไปขั้นตอนที่สำคัญและนักวิทยาการขอมูล จะตองมี
ทักษะในการเลือกใชแบบจำลองที่หลากหลายและเหมาะสมกับขอมูลอินพุต รวมไปถึงตองสอดคลองกับโจทยปญหาที่
ตองการหาคำตอบ ซึ่งหากนักวิทยาการขอมูล ไมมีทักษะที่ดีก็จะทำใหเลือกใชแบบจำลองขอมูลที่ไมเหมาะสมสงผลใหของ
การวิเคราะหขอมูลไมถูกตองตามไปดวย ซึ่งโดยทั่วไปแลวแบบจำลองที่วานี้สวนใหญจะใชวิธีการทาง machine learning
เขามาแกปญหา เชน Decision tree, Association rule, Artificial neural networks, Support vector machines,
Bayesian networks, Genetic algorithms เปนตน ซึ่งไมสามารถบอกไดวาวิธีการใดดีที่สุดในการหาคำตอบขึ้นอยูกับขอมูล
และโจทยปญหา
5. การสื่อสารและการแสดงผลลัพธ หลังจากที่ผานขั้นตอนของการวิเคราะหแลว ขั้นตอนสุดทายของ
กระบวนการวิทยาการขอมูล คือการนำผลจากการวิเคราะหมาแสดงผลใหอยูในรูปแบบที่เขาใจไดงายสามารถสื่อสารใหคนที่
เกี่ยวของในแตละระดับใหเขาใจและสามารถนำไปใชงานได
BIG DATA ANALYTICS สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร