Page 22 - 6.Machine Learning for Data Science
P. 22

หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop  |  21

                           3.  ทำงานแบบ Batch เทานั้น Hadoop ไมสามารถทำงานกับขอมูลแบบสตรีมได การแกไขขอจำกัดนี้สามารถทำ

                  ไดโดย Spark อยางไรก็ตามการประมวลผลสตรีมของ Spark ยังไมดีเทา Flink ที่ทำงานแบบ micro-batch โดย Flink จะใช
                  ตัวดำเนินการแบบวงปด (close loop operator ในการทำใหการทำงานในสวนขอ งการเรียนรูของเครื่อง และการ

                  ประมวลผลกราฟ เร็วขึ้น

                           4.  ไมเหมาะสมกับการประมวลผลขอมูลแบบเรียลไทม เนื่องจากการทำงานของ hadoop เปนรูปแบบ batch ซึ่ง
                  หมายความวาการประมวลผลและการหาคำตอบจะมาจากขอมูลอินพุตจำนวนมาก ขอจำกัดนี้สามารถแกโดยการใช Spark

                  หรือ Flink อยางไรก็ตามไมไดหมายความวาการประมวลผลแบบ batch จะไมดี เพราะการประมวลผลแบบ batch นี้เหมาะ

                  กับขอมูลที่มีจำนวนมาก ๆ ของระบบที่มีความสามารถการคำนวณสูง

                           5.  ไมเหมาะสมกับการประมวลผลแบบวนซ้ำ Hadoop ไมไดถูกออกแบบมาเพื่อรองรับการทำงานแบบวนซ้ำ
                  ที่ขอมูลอินพุตของการทำงานถัดไปไดจากผลลัพธของการทำงานกอนหนา โดยเปนผลสืบเนื่องจากการประมวลผลที่คอนขาง

                  ชาของ Hadoop จึงไมเหมาะที่จะนำมาใชงานในลักษณะประมวลผลขอมูลแบบวนซ้ำ ขอจำกัดนี้สามารถแกไดโดยการเขาถึง

                  ขอมูลผานหนวยความจำหลักหรือ RAM แทนที่จะเขาถึงขอมูลผานดิสก ซึ่งเปนวิธีการทำงานของ Spark
                           6.  MapReduce มีการทำงานคอนขางชา เนื่องจากการทำงานที่รองรับขอมูลจำนวนมากที่มี รูปแบบ ชนิด และ

                  โครงสรางแตกตางกัน โดยกระบวนการแรก Map จะทำการแปลงขอมูลใหอยูในรูปแบบ คู key-value กอนจากนั้น

                  กระบวนการ Reduces จึงนำไปประมวลผลตอซึ่งนั่นทำใหคาเวลาแฝงในการทำงานมีคาสูงมาก apache spark ถูกนำมาใช
                  ในการลดขอจำกัดนี้

                           7.  การใชงานที่ยาก การทำงานของ MapReduce ผูพัฒนาจะตองเขียนโปรแกรมเพื่อสั่งการทำงานแตละอยาง

                  ทั้งหมดโดยไมมีเครื่องมือหรือตัวชวยในการโปรแกรมใด ๆ นอกจากนี้ MapReduce ไมรองรับการทำงานแบบ interactive
                  การเพิ่มสวนของ hive และ pig เขามาจะชวยใหการทำงานชอง MapReduce งายขึ้นเล็กนอย อยางไรก็ตามการแกขอจำกัด

                  นี้สามารถทำไดโดยการใชคุณสมบัติ interactive ของ Spark

                           8.  ความเสี่ยงของระบบสูงขึ้นจากความซับซอนของระบบ การเปดใชงานการจัดการแพลตฟอรม Hadoop มี
                  ความซับซอนดังนั้นหากผูใชขาดความเชี่ยวชาญในการตั้งคาจะทำใหขอมูลที่ิอยูในระบบจะมีความเสี่ยงสูง นอกจากนั้นในการ

                  เก็บขอมูลในระดับโครงขายที่ไมไดรับการเขารหัสเปนจุดสำคัญที่ตองกังวล แมวา Hadoop จะรองรับการยืนยันตัวตนของ

                  Kerberos แตการบริหารจัดการ Kerberos ก็ยังทำไดยาก ขอจำกัดนี้สามารถแกไขไดโดยการใชงาน Spark ใน HDFS เพื่อใช
                  การควบคุมการเขาถึง (access control lists :ACLs และโครงสรางการอนุญาตเขาถึงไฟลแบบเกาซึ่ง  HDFS รองรับ และเมื่อ

                  ให Spark ทำงานบน YARN จะสามารถยืนยันตัวตนดวย Kerberos ได

                           9.  ความเสี่ยงจากอาชญากรรมทางไซเบอร เนื่องจาก hadoop พัฒนาขึ้นจาก JAVA ซึ่งเปนภาษาที่นิยมใชกัน

                  อยางแพรหลาย ดังนั้นจึงไดรับผลกระทบจากอาชญากรรมทางไซเบอรจำนวนมาก ที่เกี่ยวของกับการละเมิดความปลอดภัย
                           10. ไมเหมาะกับการทำ Catching เนื่องจาก MapReduce ใน hadoop ไมสามารถ catche ขอมูลใน

                  หนวยความจำได  ซึ่งขอจำกัดนี้สามารถใช spark และ Flink ในการแกปญหาได

                           11. Bugs เนื่องจากขนาดของโปรแกรมที่มีมากกวา 1,200,000 บรรทัดและ Hadoop จะตรวจสอบการเสร็จ
                  สมบูรณของการทำงานแตไมรับประกันระยะเวลาการทำงานจึงเกิดความไมแนนอนที่สูงในการทำงานตาง ๆ



                   INTRODUCTION TO IOT ANALYTICS USING HADOOP                                        สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร
   17   18   19   20   21   22   23   24   25   26   27