Page 30 - 5.Introduction to IoT Analytics using hadoop
P. 30
หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop 29
องคประกอบของ Hadoop นั้นประกอบดวยความซับซอนของการทำงานของ Big Data จึงทำให Hadoop แบง
ออกเปนโมดูลยอยตางๆ ไดดังนี้
1. Hadoop Distributed File System (HDFS โมดูลนี้จะเอาไวใชจัดเก็ บขอมูลที่จะนำมาวิเคราะหให
อยูในรูปที่สามารถเขาถึงไดอยางรวดเร็ว รวมไปถึงการสำรองขอมูลดังกลาวใหโดยอัตโนมัติ
2. MapReduce สวนโมดูลนี้จะเอาไวใชเกี่ยวกับการประมวลผลขอมูลปริมาณมหาศาลที่เราไดเก็บเอาไว
พูดงายๆ ก็คือ Hadoop มันจะแบงออกเปน 2 สวน นั่นก็คือ สวนที่เอาไวเก็บกับสวนที่เอาไวคิด นั่นเอง โดยที่
รายละเอียดมีดังนี้
เก็บขอมูล Big Data ไวใน HDFS
สมมติวามี Cluster ที่ไดติดตั้ง Hadoop เอาไวจนพรอมใชงาน แลวเราตองการจะใช Hadoop ประมวลผลขอมูล
ที่อยูในไฟล CSV ไฟลนึง เราจะมีวิธีการอยางไร
ปลอยให HDFS จัดการเรื่องไฟล
วิธีการก็คือ ใหอัปโหลดไฟล CSV นี้ เขาไปเก็บไวใน HDFS กอน แลวปลอยใหเจา HDFS ทำหนาที่ของมัน 2 อยาง
นี้โดยการ
- แบงไฟลออกเปน Block ยอยๆสมมติวาไฟล CSV นั้น มีขนาด 1TB การประมวลผลไฟลใหญขนาดนี้
รับรองวาชาแนๆ HDFS เลยจะแบงไฟลนี้ออกเปนไฟลยอยๆ ที่เรียกวา “Block” แลวนำไปเก็บกระจายตาม
Node ตางๆ ใน Cluster ของระบบ เพียงเทานี้ Node ตางๆ ก็จะสามารถชวยกันประมวลผลไฟล CSV นี้แบบ
ขนานกันได
- สำรอง Block เหลานั้น เอาไวที่ Node อื่นๆนอกจากนั้น HDFS ยังชวย replicate แตละ Block เอาไวที่
Node อื่นๆ ดวย (default คือ replicate ไป 3 Node คือสมมติ Block A ของ Node 1 พัง นั้นมั่นใจไดเลย
วา Block A จะยังมีสำรองอยูใน Node อื่นๆ อยางแนนอน
3.6 Node ใน Hadoop
Node นั้นหมายถึงเครื่องคอมพิวเตอรที่ประกอบไปดวย CPU, RAM แลวก็ Disk ครับ ซึ่ง Node ตางๆ ใน
Hadoop จะแบงออกเปน 2 แบบดวยกัน
1.Data Node เปน Node ที่ทำหนาที่เก็บ Block ของไฟลเอาไว และรับผิดชอบในการประมวลผล Block
นั้นๆ แตตัว Data Node เอง โดยจะไมรูวา Block ที่ตัวเองเก็บอยูนั้น เปนของไฟลไหน
2. Name Node เปน Node ที่ทำหนาที่ในการที่จะรวบรวมผลของการประมวลผล Block ตางๆ จาก Data
Node ทั้งหลาย ซึ่งแนนอนวา Name Node นี้จะตองรูทุกอยางเกี่ยวกับไฟลตนฉบับ ไมวาเปนชื่อไฟล, ขนาด
INTRODUCTION TO IOT ANALYTICS USING HADOOP สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร