Page 21 - 6.Machine Learning for Data Science

P. 21

หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop | 20

3.3 ทำไมตอง Hadoop?

ปจจุบันขอมูลมีจำนวนมาก มีความหลากหลาย และเปลี่ยนแปลงรวดเร็ว คุณสมบัติดังกลาวขางตนลวนเปน
คุณสมบัติของขอมูลขนาดใหญหรือ Big data ซึ่ง Hadoop เปนเครื่องมือที่ใชในการบริหารจัดการขอมูลขนาดใหญที่ไดรับ

ความนิยมสูง เนื่องจากมีความยืดหยุนในการจัดเก็บขอมูล สามารถจัดเก็บขอมูลไดทั้งขอมูลที่มีโครงสราง กึ่งโครงสราง และไม

มีโครงสราง สามารถประมวลผลขอมูลที่มีความซับซอน สามารถขยายขนาดของระบบไดงาย ดังมีรายละเอียดดังตอไปนี้

1. ความนาเชื่อถือ ถามี Node ใดๆ เกิดหยุดการทำงาน หรือเกิดการทำงานผิดพลาด ระบบยังคงสามารถทำงานตอไป

ไดเนื่องจาก Hadoop มีการทำงานแบบคลัสเตอรโดย Node อื่นๆ จะเขามาทำงานแทน Node ที่เกิดความผิดพลาด
2. การขยายขนาดไดงาย Hadoop มีโครงสรางที่รองรับการทำงานแบบกลุมเมฆ ในกรณีที่ทำงานบนโครงสรางแบบ

กลุมเมฆ จะไมตองกังวลถึงการขยายขนาดเนื่องจากไมมีปญหาเกี่ยวกับฮารดแวร

3. ตนทุนต่ำ เนื่องจาก Hadoop สามารถทำงานแบบกระจายบนเครื่องที่ไมจำเปนตองมีคุณสมบัติหรือสเปคที่สูง และ
ยังเปนโปรแกรมประเภทโอเพนซอรส จึงไมมีคาใชจายในสวนของสิทธิ์การใชงานระบบอีกดวย

4. การประมวลผลแบบกระจาย ทำใหสามารถประมวลผลไดรวดเร็วขึ้น และประหยัดตนทุนไดอีกดวย

5. คุณสมบัติเก็บขอมูลแบบกระจาย โดย hadoop จะแยกไฟลออกเปนสวนยอยๆ ที่เรียกวา block และสงไปเก็บใน
cluster ที่ถูกกระจายอยูในระบบ

6. นอกจากนี้ hadoop ยังมีการทำซ้ำทุก block เพื่อปองกันความเสียหายของขอมูล โดยมีการทำซ้ำอยางนอย 3 ชุด

ดังนั้นเมื่อมี node ใดในระบบเสียหาย หรือใชงานไมได node อื่นๆ จึงสามารถทำงานแทนไดในทันทีและไมเกิดการ
สะดุด

3.4 ขอจำกัด Hadoop?

ในหัวขอที่ 3.2 ไดกลาวถึงขอดีของ Hadoop ซึ่งมีหลายประการอยางไรก็ดี Hadoop ก็มีขอจำกัดหลายประการดังเชน

1. การทำงานรวมกับไฟลขนาดเล็ก เนื่องจากHadoop ถูกออกแบบมาสำหรับขอมูลขนาดใหญ ดังนั้นจึงไมเหมาะ

นักถาจะนำมาใชรวมกับขอมูลขนาดปกติ เนื่องจากขนาดของ block ใน HDFS มีขนาด 128 MB ดังนั้นเมื่อนำมาใชกับไฟล

ขนาดเล็กกวา 128 MB จำนวนมากจะทำงานไดไมดี วิธีแกปญหานี้คือการรวมเอาไฟลขนาดเล็กเขาดวยกันใหเปนไฟลขนาด
ใหญแลวจึงนำเขาสู HDFS

2. การประมวลผลชา ดวยการทำงานแบบขนานและอัลกอริทึมแบบกระจายการประมวลผลขอมูลจำนวนมาก

ของ MapReduce โดยกระบวนการ Map และ Reduce จึงทำใหการทำงานตองใชเวลาคอนขางสูงจึงทำใหคาเวลาแฝง
(latency สูงขึ้นตามไปดวย นอกจากนี้ขอมูลยังถูกกระจายอยูและประมวลผลบนคลัสเตอรอีกดวย การแกปญหาเรื่อง

ความเร็วในการทำงานสามารถทำไดโดยการประมวลผลขอมูลในหนวยความจำหลักเพื่อลดการรอคอยของการดึงขอมูลจาก

ดิสกเชนเดียวกับ Spark ซึ่งทำใหความเร็วในการทำงานในสวนนี้สูงขึ้นกวา 100 เทา

INTRODUCTION TO IOT ANALYTICS USING HADOOP สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร

16 17 18 19 20 21 22 23 24 25 26