Page 21 - 3.Big Data Analytics
P. 21
หลักสูตรการวิเคราะห์ข้อมูลขนาดใหญ่ 20
รูปที่ 5.2 ตัวอยางของ MapReduce
(Adam & Josh, 2017
ขอมูลที่เก็บอยูใน HDFS จะไมใชรูปแบบ Table อยางที่เก็บในฐานขอมูล RDBMS จะเหมาะกับการเก็บ
ขอมูลขนาดใหญมากที่ไมตองมีการเปลี่ยนแปลง และไมสามารถอานหรือเขียนขอมูลแบบ Random Access ไดสวนการ
ประมวลผลแบบ Map/Reduce ก็ไมใช real time Online แบบ SQL ของ RDBMS แตจะเปนแบบ Batch Online ใชเวลา
พอสมควรขึ้นอยูกับขนาดขอมูล สถาปตยกรรมฮารดแวรของระบบ Hadoop จะประกอบดวยเครื่อง Server จำนวนมาก
โดยจะมีเครื่องหนึ่งทำหนาที่เปน Master และจะมีเครื่องลูกอีกจำนวนมากทำหนาที่เปน Slave โดยปกติ Hadoop จะ
กำหนดใหขอมูลที่เก็บในเครื่อง Slave มีการเก็บขอมูลซ้ำกันสามแหง ดังนั้นเครื่อง Slave ควรจะมีอยางนอยสามเครื่อง สวน
เครื่อง Master ก็จะทำหนาที่หลัก ในการระบุตำแหนงของขอมูลและ Task ที่กระจายในการประมวลผลของ Map/Reduce
ดังนั้นเครื่อง Master จึงมีความสำคัญอยางมาก และตองมีเครื่อง Secondary Master ในการที่จะสำรองไวในกรณีเครื่อง
Master ตายไป ดังนั้นระบบ Hadoop โดยทั่วไปจะเริ่มตนที่เครื่อง Server 5 เครื่อง สำหรับ Master หนึ่งเครื่อง Secondary
Master หนึ่งเครื่อง และ Slave สามเครื่อง โดยหากตองการเก็บขอมูลมากขึ้นหรือตองการประมวลผลขอมูลใหเร็วขึ้นก็ตอง
เพิ่มจำนวนเครื่อง Slave ใหมากขึ้น
BIG DATA ANALYTICS สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร