Page 21 - 6.Machine Learning for Data Science
P. 21
หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop | 20
3.3 ทำไมตอง Hadoop?
ปจจุบันขอมูลมีจำนวนมาก มีความหลากหลาย และเปลี่ยนแปลงรวดเร็ว คุณสมบัติดังกลาวขางตนลวนเปน
คุณสมบัติของขอมูลขนาดใหญหรือ Big data ซึ่ง Hadoop เปนเครื่องมือที่ใชในการบริหารจัดการขอมูลขนาดใหญที่ไดรับ
ความนิยมสูง เนื่องจากมีความยืดหยุนในการจัดเก็บขอมูล สามารถจัดเก็บขอมูลไดทั้งขอมูลที่มีโครงสราง กึ่งโครงสราง และไม
มีโครงสราง สามารถประมวลผลขอมูลที่มีความซับซอน สามารถขยายขนาดของระบบไดงาย ดังมีรายละเอียดดังตอไปนี้
1. ความนาเชื่อถือ ถามี Node ใดๆ เกิดหยุดการทำงาน หรือเกิดการทำงานผิดพลาด ระบบยังคงสามารถทำงานตอไป
ไดเนื่องจาก Hadoop มีการทำงานแบบคลัสเตอรโดย Node อื่นๆ จะเขามาทำงานแทน Node ที่เกิดความผิดพลาด
2. การขยายขนาดไดงาย Hadoop มีโครงสรางที่รองรับการทำงานแบบกลุมเมฆ ในกรณีที่ทำงานบนโครงสรางแบบ
กลุมเมฆ จะไมตองกังวลถึงการขยายขนาดเนื่องจากไมมีปญหาเกี่ยวกับฮารดแวร
3. ตนทุนต่ำ เนื่องจาก Hadoop สามารถทำงานแบบกระจายบนเครื่องที่ไมจำเปนตองมีคุณสมบัติหรือสเปคที่สูง และ
ยังเปนโปรแกรมประเภทโอเพนซอรส จึงไมมีคาใชจายในสวนของสิทธิ์การใชงานระบบอีกดวย
4. การประมวลผลแบบกระจาย ทำใหสามารถประมวลผลไดรวดเร็วขึ้น และประหยัดตนทุนไดอีกดวย
5. คุณสมบัติเก็บขอมูลแบบกระจาย โดย hadoop จะแยกไฟลออกเปนสวนยอยๆ ที่เรียกวา block และสงไปเก็บใน
cluster ที่ถูกกระจายอยูในระบบ
6. นอกจากนี้ hadoop ยังมีการทำซ้ำทุก block เพื่อปองกันความเสียหายของขอมูล โดยมีการทำซ้ำอยางนอย 3 ชุด
ดังนั้นเมื่อมี node ใดในระบบเสียหาย หรือใชงานไมได node อื่นๆ จึงสามารถทำงานแทนไดในทันทีและไมเกิดการ
สะดุด
3.4 ขอจำกัด Hadoop?
ในหัวขอที่ 3.2 ไดกลาวถึงขอดีของ Hadoop ซึ่งมีหลายประการอยางไรก็ดี Hadoop ก็มีขอจำกัดหลายประการดังเชน
1. การทำงานรวมกับไฟลขนาดเล็ก เนื่องจากHadoop ถูกออกแบบมาสำหรับขอมูลขนาดใหญ ดังนั้นจึงไมเหมาะ
นักถาจะนำมาใชรวมกับขอมูลขนาดปกติ เนื่องจากขนาดของ block ใน HDFS มีขนาด 128 MB ดังนั้นเมื่อนำมาใชกับไฟล
ขนาดเล็กกวา 128 MB จำนวนมากจะทำงานไดไมดี วิธีแกปญหานี้คือการรวมเอาไฟลขนาดเล็กเขาดวยกันใหเปนไฟลขนาด
ใหญแลวจึงนำเขาสู HDFS
2. การประมวลผลชา ดวยการทำงานแบบขนานและอัลกอริทึมแบบกระจายการประมวลผลขอมูลจำนวนมาก
ของ MapReduce โดยกระบวนการ Map และ Reduce จึงทำใหการทำงานตองใชเวลาคอนขางสูงจึงทำใหคาเวลาแฝง
(latency สูงขึ้นตามไปดวย นอกจากนี้ขอมูลยังถูกกระจายอยูและประมวลผลบนคลัสเตอรอีกดวย การแกปญหาเรื่อง
ความเร็วในการทำงานสามารถทำไดโดยการประมวลผลขอมูลในหนวยความจำหลักเพื่อลดการรอคอยของการดึงขอมูลจาก
ดิสกเชนเดียวกับ Spark ซึ่งทำใหความเร็วในการทำงานในสวนนี้สูงขึ้นกวา 100 เทา
INTRODUCTION TO IOT ANALYTICS USING HADOOP สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร