Page 19 - 6.Machine Learning for Data Science
P. 19
หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop | 18
บทที่ 3 การประยุกตใช Hadoop Technology
การวิเคราะหขอมูลขนาดใหญในปจจุบันมีเทคโนโลยีเกิดขึ้นหลากหลายเทคโนโลยีจากผูผลิตตาง ๆ เชน Google,
Amazon ฯลฯ อยางไรก็ตามเทคโนโลยีที่ถูกประยุกตใชมากที่สุดเทคโนโลยีหนึ่งคือ Hadoop ในบทนี้จะกลาวถึงเทคโนโลยี
Hadoop ในมิติตาง ๆ
3.1 วัตถุประสงคการเรียนรู
เพื่อใหผูเรียน
1) รูจัก Hadoop ซึ่งเปนแพลตฟอรมสำหรับขอมูลขนาดใหญ
2) ทราบองคประกอบหลักของ Hadoop
3) เขาใจการทำงานของ Hadoop
4) เขาใจขอจำกัดตาง ๆ ของ Hadoop
5) สังเคราะหเพื่อนำไปประยุกตใชใหตรงกับลักษณะงานได
3.2 Hadoop คืออะไร
Hadoop เปนแพลตฟอรมสำหรับจัดเก็บ และ ประมวลผลขอมูลขนาดใหญ (Big Data ซึ่งสามารถรองรับการ
ขยายตัวของขอมูลเนื่องจากสามารถทำการประมวลผลแบบกระจาย (distributed ผานเครื่องคอมพิวเตอรจำนวนมากที่
รวมตัวกันเปนคลัสเตอร อีกทั้งยังมีความนาเชื่อถือสูงจากระบบตรวจจับขอผิดพลาดจากการทำงานและสามารถแกไข
ขอผิดพลาดที่ตรวจจับได แพลตฟอรม Hadoop เปนโปรแกรมแบบโอเพนซอรสดังนั้นจึงมีรุนหรือยี่หอหลากหลายดังเชน
Cloudera, BigInsight ของ IBM, MapR และ Hortonworks อยางไรก็ตามแตละรุนดังกลาวขางตนก็ประกอบดวย
สวนประกอบหลัก 3 สวนคือ
Hadoop Distributed File System (HDFS
Map Reduce
YARN
Hadoop Distributed File System หรือ HDFS เปนสวนที่ใชในการเก็บขอมูลจริง ๆ ของ Hadoop โดย
โครงสรางหลักเปนแบบ master-slave การเก็บขอมูลจะทำการกระจายขอมูลบล็อกยอยๆ ไปเก็บไวใน slave จำนวนมากโดย
เครื่องที่เปน slave จะเปนคอมพิวเตอรธรรมดาที่ไมจำเปนตองมีประสิทธิภาพสูงนัก สำหรับเครื่อง master ซึ่งเปน
คอมพิวเตอรประสิทธิภาพสูงจะทำการเก็บขอมูลประเภท metadata หรือขอมูลประเภทไฟล ตำแหนงของบล็อก ขนาดไฟล
การอนุญาต (permission โครงสราง (hierachy การสราง การลบ การเ ปลี่ยนชื่อของไฟล หรือ logs ตางๆ โดยโครงสราง
ของ HDFS แสดงดังรูปที่ 3.1
INTRODUCTION TO IOT ANALYTICS USING HADOOP สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร