Page 29 - 5.Introduction to IoT Analytics using hadoop
P. 29

หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop   28



                             -  HDFS (Hadoop Distributed File System : คือระบบจัดการไฟล แบบพิเศษของ  Hadoop , อาจจะ

                             เคยรูจักระบบไฟลอื่นๆ เชน FAT32, NTFS, NFS เปนตน แตความเกงของ HDFS คือสามารถรองรับไฟล
                             ขนาด TB หรือ PB ซึ่งการเก็บก็จะแยกเก็บเปน Block ยอยๆ (ขั้นต่ำคือ Block ละ 64MB โดยตองมีเครื่อง

                             หนึ่งตั้งเปน namenode สำหรับเก็บชื่อและตำแหนงที่เก็บขอมูล (คลายๆ กับ FAT Table ของระบบไฟล

                             ปกติ สวนเครื่องอื่นๆที่ใชเก็บขอมูลจะเรี ยกวา data-node และจะมีการสำรอง block ที่เหมือนกันไวอยาง
                             นอย 2 ที่เพื่อปองกันกรณีที่ มีบาง node ลมไป


                             -  YARN : เปนตัวที่เพิ่มเขามาใน  Hadoop 2.0 ซึ่งจะเปนพระเอกมาคอยชวยในการจัดการ cluster ของ

                             เวลาที่จายงาน (Job กับ Task และการติดตามงานของ  MapReduce ที่สงไปประมวลผล รวมถึงจัดการพวก
                             Resource Manager และ Node Manager ดูแลเรื่องของ CPU, Memory, Disk, และ Network


                             -  MapReduce: คือ Distributed Programming Framework ที่เหมาะกับปญหางายๆ ที่ไมคอยซับซอน
                             แตมีจำนวนขอมูลปริมาณมหาศาล ซึ่งเดี๋ยวเราจะมาลองเขียนกันตั้งแตพื้นฐานเลย


                             -  Pig : เปนภาษาสคริปตที่เหมาะกับงาน Pipeline processing ประมาณประมวลผล ฝากเขาตัวแปร แลว

                             เอาไปทำอยางอื่นตอ มักใชในการเตรียมขอมูล บางกรณีสามารถใชแทน MapReduce ได

                             -  Hive: (อานวา “ไฮฟ” ถาจะมองวาเปน  Distribute Database Management System ก็ไดเพราะถา

                             พวก RDBMS (row-oriented ทั่วๆไป จะไมรองรับการเก็บขอมูลแบบกระจายไปอยูในหลายๆที่ แ ละการ
                             จัดการกับขอมูลขนาดใหญ สวนใหญถาเราอยากใหการสรุปขอมูลไดงายขึ้น ก็จะมีการ load ไฟลจาก  HDFS

                             มาเขา Hive กอนแลวคอยเขียน Query เหมือนกับการใช SQL ทั่วๆไป ซึ่งโดยรวมจะเร็วกวาการทำ

                             MapReduce หรือเขียน Pig

                             -  HBase: ใชวิธีเก็บขอมูลแบบ column-oriented นั่นคือเราสามารถเพิ่ม column ไดไมจำกัด เพียงแต

                             ตองกำหนด column-family ใหเรียบรอยกอนแคนั้น เพื่อแกปญหาการเก็บขอมูลของ Hive ที่เปนเหมือน
                             RDBMS ทั่วไปที่จะตองมี Schema (โครงสรางตาราง ที่ชัดเจนกอน เวลาจะเพิ่ม  column จะตองมานั่ง alter

                             table ดังนั้น HBase จึงเหมาะสำหรับขอมูลที่มี Schema ไมแนนอน และอาจมีการเพิ่ม column ในภายหลัง

                             ไดโดยที่ไมกระทบกับโครงสรางการเก็บขอมูล อารมณคลายพวก NoSQL หรือ MongoDB นั่นเองแตสามารถ
                             ทำงานแบบกระจายตัวไดบนพื้นฐานของ HDFS


                           Apache Hadoop เปนซอฟตแวรแบบ open-source ที่สรางขึ้นมา เพื่อเปน framework ในการทำงานแบบ
                  distributed processing สำหรับขอมูลขนาดใหญครับ จุดเดนขอนึงของ Hadoop คือถูกออกแบบมาใหใชกับเครื่อง

                  คอมพิวเตอรแบบไมตองมีความสามารถสูง โดยจะสามารถขยาย scale ในอนาคต โดยสามารถเพิ่มเครื่องเขาไปได และยังมี

                  ระบบสำรองขอมูลใหโดยอัตโนมัติ เรียกวาถาใครกำลังมองหาตัวชวยในการจัดการกับ Big Data แลวละก็ Hadoop นี่ถือเปน

                  ทางเลือกที่นาสนใจเอามากๆ เลย






                   INTRODUCTION TO IOT ANALYTICS USING HADOOP     สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร
   24   25   26   27   28   29   30   31   32   33   34