Page 19 - 6.Machine Learning for Data Science
P. 19

หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop  |  18

                  บทที่ 3 การประยุกตใช Hadoop Technology


                           การวิเคราะหขอมูลขนาดใหญในปจจุบันมีเทคโนโลยีเกิดขึ้นหลากหลายเทคโนโลยีจากผูผลิตตาง ๆ เชน Google,

                  Amazon ฯลฯ อยางไรก็ตามเทคโนโลยีที่ถูกประยุกตใชมากที่สุดเทคโนโลยีหนึ่งคือ Hadoop ในบทนี้จะกลาวถึงเทคโนโลยี

                  Hadoop ในมิติตาง ๆ

                  3.1  วัตถุประสงคการเรียนรู


                           เพื่อใหผูเรียน

                           1)  รูจัก Hadoop ซึ่งเปนแพลตฟอรมสำหรับขอมูลขนาดใหญ

                           2)  ทราบองคประกอบหลักของ Hadoop

                           3)  เขาใจการทำงานของ Hadoop
                           4)  เขาใจขอจำกัดตาง ๆ ของ Hadoop

                           5)  สังเคราะหเพื่อนำไปประยุกตใชใหตรงกับลักษณะงานได


                  3.2  Hadoop คืออะไร

                           Hadoop เปนแพลตฟอรมสำหรับจัดเก็บ และ ประมวลผลขอมูลขนาดใหญ (Big Data ซึ่งสามารถรองรับการ

                  ขยายตัวของขอมูลเนื่องจากสามารถทำการประมวลผลแบบกระจาย (distributed  ผานเครื่องคอมพิวเตอรจำนวนมากที่

                  รวมตัวกันเปนคลัสเตอร อีกทั้งยังมีความนาเชื่อถือสูงจากระบบตรวจจับขอผิดพลาดจากการทำงานและสามารถแกไข
                  ขอผิดพลาดที่ตรวจจับได แพลตฟอรม Hadoop เปนโปรแกรมแบบโอเพนซอรสดังนั้นจึงมีรุนหรือยี่หอหลากหลายดังเชน

                  Cloudera, BigInsight ของ IBM, MapR และ Hortonworks อยางไรก็ตามแตละรุนดังกลาวขางตนก็ประกอบดวย

                  สวนประกอบหลัก 3 สวนคือ

                                Hadoop Distributed File System (HDFS

                                Map Reduce

                                YARN

                           Hadoop Distributed File System หรือ HDFS เปนสวนที่ใชในการเก็บขอมูลจริง ๆ ของ Hadoop โดย

                  โครงสรางหลักเปนแบบ master-slave การเก็บขอมูลจะทำการกระจายขอมูลบล็อกยอยๆ ไปเก็บไวใน slave จำนวนมากโดย
                  เครื่องที่เปน slave จะเปนคอมพิวเตอรธรรมดาที่ไมจำเปนตองมีประสิทธิภาพสูงนัก สำหรับเครื่อง master ซึ่งเปน

                  คอมพิวเตอรประสิทธิภาพสูงจะทำการเก็บขอมูลประเภท metadata หรือขอมูลประเภทไฟล ตำแหนงของบล็อก ขนาดไฟล

                  การอนุญาต (permission  โครงสราง (hierachy การสราง การลบ การเ ปลี่ยนชื่อของไฟล หรือ logs ตางๆ โดยโครงสราง
                  ของ HDFS แสดงดังรูปที่ 3.1








                   INTRODUCTION TO IOT ANALYTICS USING HADOOP                                        สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร
   14   15   16   17   18   19   20   21   22   23   24