Page 32 - 5.Introduction to IoT Analytics using hadoop
P. 32

หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop   31



                  3.8  HDFS ทำงานอยางไร


                           อยางที่รูกัน Big data จะเปนการทำงานกับขอมูลขนาดใหญมากๆ ไฟลแตละไฟลที่ตองจัดเก็บอาจจะขนาดเปน

                  TB หรือ PB ซึ่งจะหา Disk ที่ขนาดเปน PB นี่คงจะหายากซักหนอย แถมแพงอีก หวยก็เลยมาออกที่วิธีเก็บแบบแยกเปน
                  block ยอยๆอยางที่เคยเกริ่นไว เนื่องจาก block ขั้นต่ำของ HDFS จะอยูที่ 64MB ดังนั้น HDFS จะไมเหมาะกับไฟลเล็กๆ

                  จำนวนมาก แตจะเหมาะกับไฟลใหญๆ ไมกี่ไฟลซะมากกวา

                           ตัวอยางเชน ถาเรามีไฟลที่มีขนาด 1MB อยูจำนวน 100 ไฟล เราจะตองใชพื้นที่ในการเก็บถึง 100 block นั่นคือ

                  100 x 64MB = 6,400 MB ทางเลือกที่ควรทำมากกวาคือการรวมไฟลเปนไฟลเดียวขนาด 100MB จะใชพื้นที่เก็บแค 100/64

                  ปดขึ้นก็ประมาณ 2 block จะเทากับ 128MB (ตรงนี้ไมใชประเด็นหลัก แตอยากใหรูธรรมชาติของ HDFS กอนวาเคาทำมา
                  เพื่อไฟลใหญ






























                                               รูปที่ 3.2 โครงสรางของ HDFS

                                          [ที่มา. http://computaholics1.rssing.com]

                           อยางที่เห็นในรูป จริงๆ ขอมูล 1 ไฟล อาจไมไดสำเนาไวแค block เดียว ตัวระบบของ HDFS จะทำการคัดลอกซ้ำ

                  และกระจาย block ไปยัง data-node หลายๆตัว เพื่อลดความเสียงในกรณีที่บาง node เกิดความเสียหายสวนของการ

                  คัดลอกนี้เรียกวาการทำ replicate ขอมูล ซึ่งใครที่เคยเซตพวก disk-raid ก็นาจะเขาใจหลักการไดไมยาก นอกจาก HDFS จะ
                  ชวยในเรื่องของ ลดปญหาการเกิด fail over แลวยังชวยลดปญหาการเขาถึงขอมูลที่จุดเดียวกันที่เราเรียกปญหาคอขวด

                  (bottleneck เหตุผลเพราะในการดึงขอมูลมาใช มันจะติดตอขอที่อยูจาก  name node หลังจากนั้นมันจะดึงขอมูลโดยตรง

                  จาก data node ที่เก็บขอมูล block นั้นๆ โดยตรง







                   INTRODUCTION TO IOT ANALYTICS USING HADOOP     สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร
   27   28   29   30   31   32   33   34   35   36   37