Page 29 - 5.Introduction to IoT Analytics using hadoop

P. 29

หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop 28

- HDFS (Hadoop Distributed File System : คือระบบจัดการไฟล แบบพิเศษของ Hadoop , อาจจะ

เคยรูจักระบบไฟลอื่นๆ เชน FAT32, NTFS, NFS เปนตน แตความเกงของ HDFS คือสามารถรองรับไฟล
ขนาด TB หรือ PB ซึ่งการเก็บก็จะแยกเก็บเปน Block ยอยๆ (ขั้นต่ำคือ Block ละ 64MB โดยตองมีเครื่อง

หนึ่งตั้งเปน namenode สำหรับเก็บชื่อและตำแหนงที่เก็บขอมูล (คลายๆ กับ FAT Table ของระบบไฟล

ปกติ สวนเครื่องอื่นๆที่ใชเก็บขอมูลจะเรี ยกวา data-node และจะมีการสำรอง block ที่เหมือนกันไวอยาง
นอย 2 ที่เพื่อปองกันกรณีที่ มีบาง node ลมไป

- YARN : เปนตัวที่เพิ่มเขามาใน Hadoop 2.0 ซึ่งจะเปนพระเอกมาคอยชวยในการจัดการ cluster ของ

เวลาที่จายงาน (Job กับ Task และการติดตามงานของ MapReduce ที่สงไปประมวลผล รวมถึงจัดการพวก
Resource Manager และ Node Manager ดูแลเรื่องของ CPU, Memory, Disk, และ Network

- MapReduce: คือ Distributed Programming Framework ที่เหมาะกับปญหางายๆ ที่ไมคอยซับซอน
แตมีจำนวนขอมูลปริมาณมหาศาล ซึ่งเดี๋ยวเราจะมาลองเขียนกันตั้งแตพื้นฐานเลย

- Pig : เปนภาษาสคริปตที่เหมาะกับงาน Pipeline processing ประมาณประมวลผล ฝากเขาตัวแปร แลว

เอาไปทำอยางอื่นตอ มักใชในการเตรียมขอมูล บางกรณีสามารถใชแทน MapReduce ได

- Hive: (อานวา “ไฮฟ” ถาจะมองวาเปน Distribute Database Management System ก็ไดเพราะถา

พวก RDBMS (row-oriented ทั่วๆไป จะไมรองรับการเก็บขอมูลแบบกระจายไปอยูในหลายๆที่ แ ละการ
จัดการกับขอมูลขนาดใหญ สวนใหญถาเราอยากใหการสรุปขอมูลไดงายขึ้น ก็จะมีการ load ไฟลจาก HDFS

มาเขา Hive กอนแลวคอยเขียน Query เหมือนกับการใช SQL ทั่วๆไป ซึ่งโดยรวมจะเร็วกวาการทำ

MapReduce หรือเขียน Pig

- HBase: ใชวิธีเก็บขอมูลแบบ column-oriented นั่นคือเราสามารถเพิ่ม column ไดไมจำกัด เพียงแต

ตองกำหนด column-family ใหเรียบรอยกอนแคนั้น เพื่อแกปญหาการเก็บขอมูลของ Hive ที่เปนเหมือน
RDBMS ทั่วไปที่จะตองมี Schema (โครงสรางตาราง ที่ชัดเจนกอน เวลาจะเพิ่ม column จะตองมานั่ง alter

table ดังนั้น HBase จึงเหมาะสำหรับขอมูลที่มี Schema ไมแนนอน และอาจมีการเพิ่ม column ในภายหลัง

ไดโดยที่ไมกระทบกับโครงสรางการเก็บขอมูล อารมณคลายพวก NoSQL หรือ MongoDB นั่นเองแตสามารถ
ทำงานแบบกระจายตัวไดบนพื้นฐานของ HDFS

Apache Hadoop เปนซอฟตแวรแบบ open-source ที่สรางขึ้นมา เพื่อเปน framework ในการทำงานแบบ
distributed processing สำหรับขอมูลขนาดใหญครับ จุดเดนขอนึงของ Hadoop คือถูกออกแบบมาใหใชกับเครื่อง

คอมพิวเตอรแบบไมตองมีความสามารถสูง โดยจะสามารถขยาย scale ในอนาคต โดยสามารถเพิ่มเครื่องเขาไปได และยังมี

ระบบสำรองขอมูลใหโดยอัตโนมัติ เรียกวาถาใครกำลังมองหาตัวชวยในการจัดการกับ Big Data แลวละก็ Hadoop นี่ถือเปน

ทางเลือกที่นาสนใจเอามากๆ เลย

INTRODUCTION TO IOT ANALYTICS USING HADOOP สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร

24 25 26 27 28 29 30 31 32 33 34