Page 36 - 3.Big Data Analytics
P. 36

หลักสูตรการวิเคราะห์ข้อมูลขนาดใหญ่   35




                  Section 15: Big Data processing




                  15.1  วัตถุประสงคการเรียนรู

                           1)  เขาใจกระบวนการวิเคราะหขอมูลขนาดใหญ


                  15.2  กระบวนการวิเคราะหขอมูลขนาดใหญ


                             ในการประมวลผลขอมูลขนาดใหญจำเปนตองใชกระบวนการทาง วิทยาการขอมูล ซึ่งโดยทั่วไปกระบวนการ
                   ดังกลาวเริ่มตนจากการตั้งคำถามงายๆ ที่สนใจ จนนำไปสูการวิเคราะหและแสดงผลลัพธเพื่อตอบคำถาม โดยขั้นตอน

                   กระบวนการทาง วิทยาการขอมูล จะขออางอิงจาก Blitzstein และ Hanspeter ซึ่งไดแสดงขั้นตอนไวดังรูปที่ 15.1 สามารถ

                   อธิบายไดดังนี้

                           1. ตั้งคำถามที่นาสนใจ (Ask an Interesting Question เปนกระบวนการแรกเริ่มของกระบวนทาง วิทยาการ

                   ขอมูล โดยคำถามนั้นไมจำเปนตองซับซอนแตควรเปนคำถามงายๆ ซึ่งจะเปนตัวกำหนดทิศทางของกระบวนการถัดๆ ไป

                   เชน เปาหมายคืออะไร   จะทำอะไรจากขอมูลที่มีอยู หรือ ตองการที่จะคาดการณหรือประเมินผลในเรื่องใดบาง เปนตน

                           2. เก็บขอมูล (Get the Data เปนขั้นตอนของการเก็บรวบรวมขอมูลทั้งแบบที่มีโครงสรางและไมมีโครงสราง

                  หลังจากที่เราทราบปญหาและรูวาหากตองการตอบปญหานั้นจะตองใชขอมูลอะไรบางและมาจากแหลงขอมูลใดบาง

                           3. สำรวจขอมูล (Explore the Data เปนการตรวจสอบข อมูลรวมถึงการแปลงขอมูลที่ไดจากขั้นตอนการเก็บ

                  ขอมูลใหเหมาะสมกอนที่จะนำเขาสูขั้นตอนการวิเคราะหขอมูล โดยในขั้นตอนนี้อาจใชการ plot ขอมูลเพื่อดูรูปแบบของ
                  ขอมูล ขอมูลมีความผิดปกติหรือไม ทั้งนี้ขอมูลที่ผานในกระบวนการนี้แลวตองมีความเหมาะสมสอดคลองกับแบบจำลองที่เรา

                  ตองการจะใชในการวิเคราะหขอมูล

                           4. สรางแบบจำลองเพื่อการวิเคราะหขอมูล ในขั้นตอนนี้ถือไปขั้นตอนที่สำคัญและนักวิทยาการขอมูล จะตองมี

                  ทักษะในการเลือกใชแบบจำลองที่หลากหลายและเหมาะสมกับขอมูลอินพุต รวมไปถึงตองสอดคลองกับโจทยปญหาที่

                  ตองการหาคำตอบ ซึ่งหากนักวิทยาการขอมูล ไมมีทักษะที่ดีก็จะทำใหเลือกใชแบบจำลองขอมูลที่ไมเหมาะสมสงผลใหของ

                  การวิเคราะหขอมูลไมถูกตองตามไปดวย ซึ่งโดยทั่วไปแลวแบบจำลองที่วานี้สวนใหญจะใชวิธีการทาง machine learning
                  เขามาแกปญหา เชน Decision tree, Association rule, Artificial neural networks, Support vector machines,

                  Bayesian networks, Genetic algorithms เปนตน ซึ่งไมสามารถบอกไดวาวิธีการใดดีที่สุดในการหาคำตอบขึ้นอยูกับขอมูล

                  และโจทยปญหา

                           5. การสื่อสารและการแสดงผลลัพธ หลังจากที่ผานขั้นตอนของการวิเคราะหแลว ขั้นตอนสุดทายของ

                  กระบวนการวิทยาการขอมูล คือการนำผลจากการวิเคราะหมาแสดงผลใหอยูในรูปแบบที่เขาใจไดงายสามารถสื่อสารใหคนที่
                  เกี่ยวของในแตละระดับใหเขาใจและสามารถนำไปใชงานได





                   BIG DATA ANALYTICS                             สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร
   31   32   33   34   35   36   37   38   39   40   41