Page 30 - 5.Introduction to IoT Analytics using hadoop
P. 30

หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop   29



                         องคประกอบของ Hadoop นั้นประกอบดวยความซับซอนของการทำงานของ Big Data จึงทำให Hadoop แบง

                  ออกเปนโมดูลยอยตางๆ ไดดังนี้

                               1.  Hadoop Distributed File System (HDFS โมดูลนี้จะเอาไวใชจัดเก็ บขอมูลที่จะนำมาวิเคราะหให

                                   อยูในรูปที่สามารถเขาถึงไดอยางรวดเร็ว รวมไปถึงการสำรองขอมูลดังกลาวใหโดยอัตโนมัติ

                               2.  MapReduce สวนโมดูลนี้จะเอาไวใชเกี่ยวกับการประมวลผลขอมูลปริมาณมหาศาลที่เราไดเก็บเอาไว


                           พูดงายๆ ก็คือ Hadoop มันจะแบงออกเปน 2 สวน นั่นก็คือ สวนที่เอาไวเก็บกับสวนที่เอาไวคิด นั่นเอง โดยที่
                  รายละเอียดมีดังนี้


                        เก็บขอมูล Big Data ไวใน HDFS

                           สมมติวามี Cluster ที่ไดติดตั้ง Hadoop เอาไวจนพรอมใชงาน แลวเราตองการจะใช Hadoop ประมวลผลขอมูล

                  ที่อยูในไฟล CSV ไฟลนึง เราจะมีวิธีการอยางไร

                        ปลอยให HDFS จัดการเรื่องไฟล


                           วิธีการก็คือ ใหอัปโหลดไฟล CSV นี้ เขาไปเก็บไวใน HDFS กอน แลวปลอยใหเจา HDFS ทำหนาที่ของมัน 2 อยาง
                  นี้โดยการ


                             -  แบงไฟลออกเปน Block ยอยๆสมมติวาไฟล CSV นั้น มีขนาด 1TB การประมวลผลไฟลใหญขนาดนี้

                             รับรองวาชาแนๆ HDFS เลยจะแบงไฟลนี้ออกเปนไฟลยอยๆ ที่เรียกวา “Block” แลวนำไปเก็บกระจายตาม
                             Node ตางๆ ใน Cluster ของระบบ เพียงเทานี้ Node ตางๆ ก็จะสามารถชวยกันประมวลผลไฟล CSV นี้แบบ

                             ขนานกันได

                             -  สำรอง Block เหลานั้น เอาไวที่ Node อื่นๆนอกจากนั้น HDFS ยังชวย replicate แตละ Block เอาไวที่

                             Node อื่นๆ ดวย (default คือ replicate ไป 3 Node คือสมมติ  Block A ของ Node 1 พัง นั้นมั่นใจไดเลย

                             วา Block A จะยังมีสำรองอยูใน Node อื่นๆ อยางแนนอน

                  3.6  Node ใน Hadoop


                           Node นั้นหมายถึงเครื่องคอมพิวเตอรที่ประกอบไปดวย CPU, RAM แลวก็ Disk ครับ ซึ่ง Node ตางๆ ใน

                  Hadoop จะแบงออกเปน 2 แบบดวยกัน

                             1.Data Node เปน Node ที่ทำหนาที่เก็บ Block ของไฟลเอาไว และรับผิดชอบในการประมวลผล Block

                             นั้นๆ แตตัว Data Node เอง โดยจะไมรูวา Block ที่ตัวเองเก็บอยูนั้น เปนของไฟลไหน

                             2.  Name Node เปน Node ที่ทำหนาที่ในการที่จะรวบรวมผลของการประมวลผล Block ตางๆ จาก Data

                             Node ทั้งหลาย ซึ่งแนนอนวา Name Node นี้จะตองรูทุกอยางเกี่ยวกับไฟลตนฉบับ ไมวาเปนชื่อไฟล, ขนาด






                   INTRODUCTION TO IOT ANALYTICS USING HADOOP     สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร
   25   26   27   28   29   30   31   32   33   34   35