Page 32 - 5.Introduction to IoT Analytics using hadoop
P. 32
หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop 31
3.8 HDFS ทำงานอยางไร
อยางที่รูกัน Big data จะเปนการทำงานกับขอมูลขนาดใหญมากๆ ไฟลแตละไฟลที่ตองจัดเก็บอาจจะขนาดเปน
TB หรือ PB ซึ่งจะหา Disk ที่ขนาดเปน PB นี่คงจะหายากซักหนอย แถมแพงอีก หวยก็เลยมาออกที่วิธีเก็บแบบแยกเปน
block ยอยๆอยางที่เคยเกริ่นไว เนื่องจาก block ขั้นต่ำของ HDFS จะอยูที่ 64MB ดังนั้น HDFS จะไมเหมาะกับไฟลเล็กๆ
จำนวนมาก แตจะเหมาะกับไฟลใหญๆ ไมกี่ไฟลซะมากกวา
ตัวอยางเชน ถาเรามีไฟลที่มีขนาด 1MB อยูจำนวน 100 ไฟล เราจะตองใชพื้นที่ในการเก็บถึง 100 block นั่นคือ
100 x 64MB = 6,400 MB ทางเลือกที่ควรทำมากกวาคือการรวมไฟลเปนไฟลเดียวขนาด 100MB จะใชพื้นที่เก็บแค 100/64
ปดขึ้นก็ประมาณ 2 block จะเทากับ 128MB (ตรงนี้ไมใชประเด็นหลัก แตอยากใหรูธรรมชาติของ HDFS กอนวาเคาทำมา
เพื่อไฟลใหญ
รูปที่ 3.2 โครงสรางของ HDFS
[ที่มา. http://computaholics1.rssing.com]
อยางที่เห็นในรูป จริงๆ ขอมูล 1 ไฟล อาจไมไดสำเนาไวแค block เดียว ตัวระบบของ HDFS จะทำการคัดลอกซ้ำ
และกระจาย block ไปยัง data-node หลายๆตัว เพื่อลดความเสียงในกรณีที่บาง node เกิดความเสียหายสวนของการ
คัดลอกนี้เรียกวาการทำ replicate ขอมูล ซึ่งใครที่เคยเซตพวก disk-raid ก็นาจะเขาใจหลักการไดไมยาก นอกจาก HDFS จะ
ชวยในเรื่องของ ลดปญหาการเกิด fail over แลวยังชวยลดปญหาการเขาถึงขอมูลที่จุดเดียวกันที่เราเรียกปญหาคอขวด
(bottleneck เหตุผลเพราะในการดึงขอมูลมาใช มันจะติดตอขอที่อยูจาก name node หลังจากนั้นมันจะดึงขอมูลโดยตรง
จาก data node ที่เก็บขอมูล block นั้นๆ โดยตรง
INTRODUCTION TO IOT ANALYTICS USING HADOOP สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร