Page 22 - 6.Machine Learning for Data Science
P. 22
หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop | 21
3. ทำงานแบบ Batch เทานั้น Hadoop ไมสามารถทำงานกับขอมูลแบบสตรีมได การแกไขขอจำกัดนี้สามารถทำ
ไดโดย Spark อยางไรก็ตามการประมวลผลสตรีมของ Spark ยังไมดีเทา Flink ที่ทำงานแบบ micro-batch โดย Flink จะใช
ตัวดำเนินการแบบวงปด (close loop operator ในการทำใหการทำงานในสวนขอ งการเรียนรูของเครื่อง และการ
ประมวลผลกราฟ เร็วขึ้น
4. ไมเหมาะสมกับการประมวลผลขอมูลแบบเรียลไทม เนื่องจากการทำงานของ hadoop เปนรูปแบบ batch ซึ่ง
หมายความวาการประมวลผลและการหาคำตอบจะมาจากขอมูลอินพุตจำนวนมาก ขอจำกัดนี้สามารถแกโดยการใช Spark
หรือ Flink อยางไรก็ตามไมไดหมายความวาการประมวลผลแบบ batch จะไมดี เพราะการประมวลผลแบบ batch นี้เหมาะ
กับขอมูลที่มีจำนวนมาก ๆ ของระบบที่มีความสามารถการคำนวณสูง
5. ไมเหมาะสมกับการประมวลผลแบบวนซ้ำ Hadoop ไมไดถูกออกแบบมาเพื่อรองรับการทำงานแบบวนซ้ำ
ที่ขอมูลอินพุตของการทำงานถัดไปไดจากผลลัพธของการทำงานกอนหนา โดยเปนผลสืบเนื่องจากการประมวลผลที่คอนขาง
ชาของ Hadoop จึงไมเหมาะที่จะนำมาใชงานในลักษณะประมวลผลขอมูลแบบวนซ้ำ ขอจำกัดนี้สามารถแกไดโดยการเขาถึง
ขอมูลผานหนวยความจำหลักหรือ RAM แทนที่จะเขาถึงขอมูลผานดิสก ซึ่งเปนวิธีการทำงานของ Spark
6. MapReduce มีการทำงานคอนขางชา เนื่องจากการทำงานที่รองรับขอมูลจำนวนมากที่มี รูปแบบ ชนิด และ
โครงสรางแตกตางกัน โดยกระบวนการแรก Map จะทำการแปลงขอมูลใหอยูในรูปแบบ คู key-value กอนจากนั้น
กระบวนการ Reduces จึงนำไปประมวลผลตอซึ่งนั่นทำใหคาเวลาแฝงในการทำงานมีคาสูงมาก apache spark ถูกนำมาใช
ในการลดขอจำกัดนี้
7. การใชงานที่ยาก การทำงานของ MapReduce ผูพัฒนาจะตองเขียนโปรแกรมเพื่อสั่งการทำงานแตละอยาง
ทั้งหมดโดยไมมีเครื่องมือหรือตัวชวยในการโปรแกรมใด ๆ นอกจากนี้ MapReduce ไมรองรับการทำงานแบบ interactive
การเพิ่มสวนของ hive และ pig เขามาจะชวยใหการทำงานชอง MapReduce งายขึ้นเล็กนอย อยางไรก็ตามการแกขอจำกัด
นี้สามารถทำไดโดยการใชคุณสมบัติ interactive ของ Spark
8. ความเสี่ยงของระบบสูงขึ้นจากความซับซอนของระบบ การเปดใชงานการจัดการแพลตฟอรม Hadoop มี
ความซับซอนดังนั้นหากผูใชขาดความเชี่ยวชาญในการตั้งคาจะทำใหขอมูลที่ิอยูในระบบจะมีความเสี่ยงสูง นอกจากนั้นในการ
เก็บขอมูลในระดับโครงขายที่ไมไดรับการเขารหัสเปนจุดสำคัญที่ตองกังวล แมวา Hadoop จะรองรับการยืนยันตัวตนของ
Kerberos แตการบริหารจัดการ Kerberos ก็ยังทำไดยาก ขอจำกัดนี้สามารถแกไขไดโดยการใชงาน Spark ใน HDFS เพื่อใช
การควบคุมการเขาถึง (access control lists :ACLs และโครงสรางการอนุญาตเขาถึงไฟลแบบเกาซึ่ง HDFS รองรับ และเมื่อ
ให Spark ทำงานบน YARN จะสามารถยืนยันตัวตนดวย Kerberos ได
9. ความเสี่ยงจากอาชญากรรมทางไซเบอร เนื่องจาก hadoop พัฒนาขึ้นจาก JAVA ซึ่งเปนภาษาที่นิยมใชกัน
อยางแพรหลาย ดังนั้นจึงไดรับผลกระทบจากอาชญากรรมทางไซเบอรจำนวนมาก ที่เกี่ยวของกับการละเมิดความปลอดภัย
10. ไมเหมาะกับการทำ Catching เนื่องจาก MapReduce ใน hadoop ไมสามารถ catche ขอมูลใน
หนวยความจำได ซึ่งขอจำกัดนี้สามารถใช spark และ Flink ในการแกปญหาได
11. Bugs เนื่องจากขนาดของโปรแกรมที่มีมากกวา 1,200,000 บรรทัดและ Hadoop จะตรวจสอบการเสร็จ
สมบูรณของการทำงานแตไมรับประกันระยะเวลาการทำงานจึงเกิดความไมแนนอนที่สูงในการทำงานตาง ๆ
INTRODUCTION TO IOT ANALYTICS USING HADOOP สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร