Page 29 - 5.Introduction to IoT Analytics using hadoop
P. 29
หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop 28
- HDFS (Hadoop Distributed File System : คือระบบจัดการไฟล แบบพิเศษของ Hadoop , อาจจะ
เคยรูจักระบบไฟลอื่นๆ เชน FAT32, NTFS, NFS เปนตน แตความเกงของ HDFS คือสามารถรองรับไฟล
ขนาด TB หรือ PB ซึ่งการเก็บก็จะแยกเก็บเปน Block ยอยๆ (ขั้นต่ำคือ Block ละ 64MB โดยตองมีเครื่อง
หนึ่งตั้งเปน namenode สำหรับเก็บชื่อและตำแหนงที่เก็บขอมูล (คลายๆ กับ FAT Table ของระบบไฟล
ปกติ สวนเครื่องอื่นๆที่ใชเก็บขอมูลจะเรี ยกวา data-node และจะมีการสำรอง block ที่เหมือนกันไวอยาง
นอย 2 ที่เพื่อปองกันกรณีที่ มีบาง node ลมไป
- YARN : เปนตัวที่เพิ่มเขามาใน Hadoop 2.0 ซึ่งจะเปนพระเอกมาคอยชวยในการจัดการ cluster ของ
เวลาที่จายงาน (Job กับ Task และการติดตามงานของ MapReduce ที่สงไปประมวลผล รวมถึงจัดการพวก
Resource Manager และ Node Manager ดูแลเรื่องของ CPU, Memory, Disk, และ Network
- MapReduce: คือ Distributed Programming Framework ที่เหมาะกับปญหางายๆ ที่ไมคอยซับซอน
แตมีจำนวนขอมูลปริมาณมหาศาล ซึ่งเดี๋ยวเราจะมาลองเขียนกันตั้งแตพื้นฐานเลย
- Pig : เปนภาษาสคริปตที่เหมาะกับงาน Pipeline processing ประมาณประมวลผล ฝากเขาตัวแปร แลว
เอาไปทำอยางอื่นตอ มักใชในการเตรียมขอมูล บางกรณีสามารถใชแทน MapReduce ได
- Hive: (อานวา “ไฮฟ” ถาจะมองวาเปน Distribute Database Management System ก็ไดเพราะถา
พวก RDBMS (row-oriented ทั่วๆไป จะไมรองรับการเก็บขอมูลแบบกระจายไปอยูในหลายๆที่ แ ละการ
จัดการกับขอมูลขนาดใหญ สวนใหญถาเราอยากใหการสรุปขอมูลไดงายขึ้น ก็จะมีการ load ไฟลจาก HDFS
มาเขา Hive กอนแลวคอยเขียน Query เหมือนกับการใช SQL ทั่วๆไป ซึ่งโดยรวมจะเร็วกวาการทำ
MapReduce หรือเขียน Pig
- HBase: ใชวิธีเก็บขอมูลแบบ column-oriented นั่นคือเราสามารถเพิ่ม column ไดไมจำกัด เพียงแต
ตองกำหนด column-family ใหเรียบรอยกอนแคนั้น เพื่อแกปญหาการเก็บขอมูลของ Hive ที่เปนเหมือน
RDBMS ทั่วไปที่จะตองมี Schema (โครงสรางตาราง ที่ชัดเจนกอน เวลาจะเพิ่ม column จะตองมานั่ง alter
table ดังนั้น HBase จึงเหมาะสำหรับขอมูลที่มี Schema ไมแนนอน และอาจมีการเพิ่ม column ในภายหลัง
ไดโดยที่ไมกระทบกับโครงสรางการเก็บขอมูล อารมณคลายพวก NoSQL หรือ MongoDB นั่นเองแตสามารถ
ทำงานแบบกระจายตัวไดบนพื้นฐานของ HDFS
Apache Hadoop เปนซอฟตแวรแบบ open-source ที่สรางขึ้นมา เพื่อเปน framework ในการทำงานแบบ
distributed processing สำหรับขอมูลขนาดใหญครับ จุดเดนขอนึงของ Hadoop คือถูกออกแบบมาใหใชกับเครื่อง
คอมพิวเตอรแบบไมตองมีความสามารถสูง โดยจะสามารถขยาย scale ในอนาคต โดยสามารถเพิ่มเครื่องเขาไปได และยังมี
ระบบสำรองขอมูลใหโดยอัตโนมัติ เรียกวาถาใครกำลังมองหาตัวชวยในการจัดการกับ Big Data แลวละก็ Hadoop นี่ถือเปน
ทางเลือกที่นาสนใจเอามากๆ เลย
INTRODUCTION TO IOT ANALYTICS USING HADOOP สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร