Page 22 - 6.Machine Learning for Data Science

P. 22

หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop | 21

3. ทำงานแบบ Batch เทานั้น Hadoop ไมสามารถทำงานกับขอมูลแบบสตรีมได การแกไขขอจำกัดนี้สามารถทำ

ไดโดย Spark อยางไรก็ตามการประมวลผลสตรีมของ Spark ยังไมดีเทา Flink ที่ทำงานแบบ micro-batch โดย Flink จะใช
ตัวดำเนินการแบบวงปด (close loop operator ในการทำใหการทำงานในสวนขอ งการเรียนรูของเครื่อง และการ

ประมวลผลกราฟ เร็วขึ้น

4. ไมเหมาะสมกับการประมวลผลขอมูลแบบเรียลไทม เนื่องจากการทำงานของ hadoop เปนรูปแบบ batch ซึ่ง
หมายความวาการประมวลผลและการหาคำตอบจะมาจากขอมูลอินพุตจำนวนมาก ขอจำกัดนี้สามารถแกโดยการใช Spark

หรือ Flink อยางไรก็ตามไมไดหมายความวาการประมวลผลแบบ batch จะไมดี เพราะการประมวลผลแบบ batch นี้เหมาะ

กับขอมูลที่มีจำนวนมาก ๆ ของระบบที่มีความสามารถการคำนวณสูง

5. ไมเหมาะสมกับการประมวลผลแบบวนซ้ำ Hadoop ไมไดถูกออกแบบมาเพื่อรองรับการทำงานแบบวนซ้ำ
ที่ขอมูลอินพุตของการทำงานถัดไปไดจากผลลัพธของการทำงานกอนหนา โดยเปนผลสืบเนื่องจากการประมวลผลที่คอนขาง

ชาของ Hadoop จึงไมเหมาะที่จะนำมาใชงานในลักษณะประมวลผลขอมูลแบบวนซ้ำ ขอจำกัดนี้สามารถแกไดโดยการเขาถึง

ขอมูลผานหนวยความจำหลักหรือ RAM แทนที่จะเขาถึงขอมูลผานดิสก ซึ่งเปนวิธีการทำงานของ Spark
6. MapReduce มีการทำงานคอนขางชา เนื่องจากการทำงานที่รองรับขอมูลจำนวนมากที่มี รูปแบบ ชนิด และ

โครงสรางแตกตางกัน โดยกระบวนการแรก Map จะทำการแปลงขอมูลใหอยูในรูปแบบ คู key-value กอนจากนั้น

กระบวนการ Reduces จึงนำไปประมวลผลตอซึ่งนั่นทำใหคาเวลาแฝงในการทำงานมีคาสูงมาก apache spark ถูกนำมาใช
ในการลดขอจำกัดนี้

7. การใชงานที่ยาก การทำงานของ MapReduce ผูพัฒนาจะตองเขียนโปรแกรมเพื่อสั่งการทำงานแตละอยาง

ทั้งหมดโดยไมมีเครื่องมือหรือตัวชวยในการโปรแกรมใด ๆ นอกจากนี้ MapReduce ไมรองรับการทำงานแบบ interactive
การเพิ่มสวนของ hive และ pig เขามาจะชวยใหการทำงานชอง MapReduce งายขึ้นเล็กนอย อยางไรก็ตามการแกขอจำกัด

นี้สามารถทำไดโดยการใชคุณสมบัติ interactive ของ Spark

8. ความเสี่ยงของระบบสูงขึ้นจากความซับซอนของระบบ การเปดใชงานการจัดการแพลตฟอรม Hadoop มี
ความซับซอนดังนั้นหากผูใชขาดความเชี่ยวชาญในการตั้งคาจะทำใหขอมูลที่ิอยูในระบบจะมีความเสี่ยงสูง นอกจากนั้นในการ

เก็บขอมูลในระดับโครงขายที่ไมไดรับการเขารหัสเปนจุดสำคัญที่ตองกังวล แมวา Hadoop จะรองรับการยืนยันตัวตนของ

Kerberos แตการบริหารจัดการ Kerberos ก็ยังทำไดยาก ขอจำกัดนี้สามารถแกไขไดโดยการใชงาน Spark ใน HDFS เพื่อใช
การควบคุมการเขาถึง (access control lists :ACLs และโครงสรางการอนุญาตเขาถึงไฟลแบบเกาซึ่ง HDFS รองรับ และเมื่อ

ให Spark ทำงานบน YARN จะสามารถยืนยันตัวตนดวย Kerberos ได

9. ความเสี่ยงจากอาชญากรรมทางไซเบอร เนื่องจาก hadoop พัฒนาขึ้นจาก JAVA ซึ่งเปนภาษาที่นิยมใชกัน

อยางแพรหลาย ดังนั้นจึงไดรับผลกระทบจากอาชญากรรมทางไซเบอรจำนวนมาก ที่เกี่ยวของกับการละเมิดความปลอดภัย
10. ไมเหมาะกับการทำ Catching เนื่องจาก MapReduce ใน hadoop ไมสามารถ catche ขอมูลใน

หนวยความจำได ซึ่งขอจำกัดนี้สามารถใช spark และ Flink ในการแกปญหาได

11. Bugs เนื่องจากขนาดของโปรแกรมที่มีมากกวา 1,200,000 บรรทัดและ Hadoop จะตรวจสอบการเสร็จ
สมบูรณของการทำงานแตไมรับประกันระยะเวลาการทำงานจึงเกิดความไมแนนอนที่สูงในการทำงานตาง ๆ

INTRODUCTION TO IOT ANALYTICS USING HADOOP สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร

17 18 19 20 21 22 23 24 25 26 27