Page 30 - 5.Introduction to IoT Analytics using hadoop

P. 30

หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop 29

องคประกอบของ Hadoop นั้นประกอบดวยความซับซอนของการทำงานของ Big Data จึงทำให Hadoop แบง

ออกเปนโมดูลยอยตางๆ ไดดังนี้

1. Hadoop Distributed File System (HDFS โมดูลนี้จะเอาไวใชจัดเก็ บขอมูลที่จะนำมาวิเคราะหให

อยูในรูปที่สามารถเขาถึงไดอยางรวดเร็ว รวมไปถึงการสำรองขอมูลดังกลาวใหโดยอัตโนมัติ

2. MapReduce สวนโมดูลนี้จะเอาไวใชเกี่ยวกับการประมวลผลขอมูลปริมาณมหาศาลที่เราไดเก็บเอาไว

พูดงายๆ ก็คือ Hadoop มันจะแบงออกเปน 2 สวน นั่นก็คือ สวนที่เอาไวเก็บกับสวนที่เอาไวคิด นั่นเอง โดยที่
รายละเอียดมีดังนี้

เก็บขอมูล Big Data ไวใน HDFS

สมมติวามี Cluster ที่ไดติดตั้ง Hadoop เอาไวจนพรอมใชงาน แลวเราตองการจะใช Hadoop ประมวลผลขอมูล

ที่อยูในไฟล CSV ไฟลนึง เราจะมีวิธีการอยางไร

ปลอยให HDFS จัดการเรื่องไฟล

วิธีการก็คือ ใหอัปโหลดไฟล CSV นี้ เขาไปเก็บไวใน HDFS กอน แลวปลอยใหเจา HDFS ทำหนาที่ของมัน 2 อยาง
นี้โดยการ

- แบงไฟลออกเปน Block ยอยๆสมมติวาไฟล CSV นั้น มีขนาด 1TB การประมวลผลไฟลใหญขนาดนี้

รับรองวาชาแนๆ HDFS เลยจะแบงไฟลนี้ออกเปนไฟลยอยๆ ที่เรียกวา “Block” แลวนำไปเก็บกระจายตาม
Node ตางๆ ใน Cluster ของระบบ เพียงเทานี้ Node ตางๆ ก็จะสามารถชวยกันประมวลผลไฟล CSV นี้แบบ

ขนานกันได

- สำรอง Block เหลานั้น เอาไวที่ Node อื่นๆนอกจากนั้น HDFS ยังชวย replicate แตละ Block เอาไวที่

Node อื่นๆ ดวย (default คือ replicate ไป 3 Node คือสมมติ Block A ของ Node 1 พัง นั้นมั่นใจไดเลย

วา Block A จะยังมีสำรองอยูใน Node อื่นๆ อยางแนนอน

3.6 Node ใน Hadoop

Node นั้นหมายถึงเครื่องคอมพิวเตอรที่ประกอบไปดวย CPU, RAM แลวก็ Disk ครับ ซึ่ง Node ตางๆ ใน

Hadoop จะแบงออกเปน 2 แบบดวยกัน

1.Data Node เปน Node ที่ทำหนาที่เก็บ Block ของไฟลเอาไว และรับผิดชอบในการประมวลผล Block

นั้นๆ แตตัว Data Node เอง โดยจะไมรูวา Block ที่ตัวเองเก็บอยูนั้น เปนของไฟลไหน

2. Name Node เปน Node ที่ทำหนาที่ในการที่จะรวบรวมผลของการประมวลผล Block ตางๆ จาก Data

Node ทั้งหลาย ซึ่งแนนอนวา Name Node นี้จะตองรูทุกอยางเกี่ยวกับไฟลตนฉบับ ไมวาเปนชื่อไฟล, ขนาด

INTRODUCTION TO IOT ANALYTICS USING HADOOP สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร

25 26 27 28 29 30 31 32 33 34 35