Page 21 - 3.Big Data Analytics
P. 21

หลักสูตรการวิเคราะห์ข้อมูลขนาดใหญ่   20





































                                                 รูปที่ 5.2 ตัวอยางของ MapReduce


                                                      (Adam & Josh, 2017
                             ขอมูลที่เก็บอยูใน HDFS จะไมใชรูปแบบ Table อยางที่เก็บในฐานขอมูล RDBMS จะเหมาะกับการเก็บ

                  ขอมูลขนาดใหญมากที่ไมตองมีการเปลี่ยนแปลง และไมสามารถอานหรือเขียนขอมูลแบบ Random Access ไดสวนการ
                  ประมวลผลแบบ Map/Reduce ก็ไมใช real time Online แบบ SQL ของ RDBMS แตจะเปนแบบ Batch Online ใชเวลา

                  พอสมควรขึ้นอยูกับขนาดขอมูล สถาปตยกรรมฮารดแวรของระบบ Hadoop จะประกอบดวยเครื่อง Server จำนวนมาก

                  โดยจะมีเครื่องหนึ่งทำหนาที่เปน Master และจะมีเครื่องลูกอีกจำนวนมากทำหนาที่เปน Slave โดยปกติ Hadoop จะ
                  กำหนดใหขอมูลที่เก็บในเครื่อง Slave มีการเก็บขอมูลซ้ำกันสามแหง ดังนั้นเครื่อง Slave ควรจะมีอยางนอยสามเครื่อง สวน

                  เครื่อง Master ก็จะทำหนาที่หลัก ในการระบุตำแหนงของขอมูลและ Task ที่กระจายในการประมวลผลของ Map/Reduce

                  ดังนั้นเครื่อง Master จึงมีความสำคัญอยางมาก และตองมีเครื่อง Secondary Master ในการที่จะสำรองไวในกรณีเครื่อง
                  Master ตายไป ดังนั้นระบบ Hadoop โดยทั่วไปจะเริ่มตนที่เครื่อง Server 5 เครื่อง สำหรับ Master หนึ่งเครื่อง Secondary

                  Master หนึ่งเครื่อง และ Slave สามเครื่อง โดยหากตองการเก็บขอมูลมากขึ้นหรือตองการประมวลผลขอมูลใหเร็วขึ้นก็ตอง

                  เพิ่มจำนวนเครื่อง Slave ใหมากขึ้น


















                   BIG DATA ANALYTICS                             สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร
   16   17   18   19   20   21   22   23   24   25   26