Page 21 - 6.Machine Learning for Data Science
P. 21

หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop  |  20



                  3.3  ทำไมตอง Hadoop?


                           ปจจุบันขอมูลมีจำนวนมาก มีความหลากหลาย และเปลี่ยนแปลงรวดเร็ว คุณสมบัติดังกลาวขางตนลวนเปน
                  คุณสมบัติของขอมูลขนาดใหญหรือ Big data ซึ่ง Hadoop เปนเครื่องมือที่ใชในการบริหารจัดการขอมูลขนาดใหญที่ไดรับ

                  ความนิยมสูง เนื่องจากมีความยืดหยุนในการจัดเก็บขอมูล สามารถจัดเก็บขอมูลไดทั้งขอมูลที่มีโครงสราง กึ่งโครงสราง และไม

                  มีโครงสราง สามารถประมวลผลขอมูลที่มีความซับซอน สามารถขยายขนาดของระบบไดงาย ดังมีรายละเอียดดังตอไปนี้

                        1. ความนาเชื่อถือ ถามี Node ใดๆ เกิดหยุดการทำงาน หรือเกิดการทำงานผิดพลาด ระบบยังคงสามารถทำงานตอไป

                        ไดเนื่องจาก Hadoop มีการทำงานแบบคลัสเตอรโดย Node อื่นๆ จะเขามาทำงานแทน Node ที่เกิดความผิดพลาด
                        2. การขยายขนาดไดงาย Hadoop มีโครงสรางที่รองรับการทำงานแบบกลุมเมฆ ในกรณีที่ทำงานบนโครงสรางแบบ

                        กลุมเมฆ จะไมตองกังวลถึงการขยายขนาดเนื่องจากไมมีปญหาเกี่ยวกับฮารดแวร

                        3. ตนทุนต่ำ เนื่องจาก Hadoop สามารถทำงานแบบกระจายบนเครื่องที่ไมจำเปนตองมีคุณสมบัติหรือสเปคที่สูง และ
                        ยังเปนโปรแกรมประเภทโอเพนซอรส จึงไมมีคาใชจายในสวนของสิทธิ์การใชงานระบบอีกดวย

                        4. การประมวลผลแบบกระจาย ทำใหสามารถประมวลผลไดรวดเร็วขึ้น และประหยัดตนทุนไดอีกดวย

                        5. คุณสมบัติเก็บขอมูลแบบกระจาย โดย hadoop จะแยกไฟลออกเปนสวนยอยๆ ที่เรียกวา block และสงไปเก็บใน
                        cluster ที่ถูกกระจายอยูในระบบ

                        6. นอกจากนี้ hadoop ยังมีการทำซ้ำทุก block เพื่อปองกันความเสียหายของขอมูล โดยมีการทำซ้ำอยางนอย 3 ชุด

                        ดังนั้นเมื่อมี node ใดในระบบเสียหาย หรือใชงานไมได node อื่นๆ จึงสามารถทำงานแทนไดในทันทีและไมเกิดการ
                        สะดุด


                  3.4  ขอจำกัด Hadoop?


                        ในหัวขอที่ 3.2 ไดกลาวถึงขอดีของ Hadoop ซึ่งมีหลายประการอยางไรก็ดี Hadoop ก็มีขอจำกัดหลายประการดังเชน

                           1.  การทำงานรวมกับไฟลขนาดเล็ก เนื่องจากHadoop ถูกออกแบบมาสำหรับขอมูลขนาดใหญ ดังนั้นจึงไมเหมาะ

                  นักถาจะนำมาใชรวมกับขอมูลขนาดปกติ เนื่องจากขนาดของ block ใน HDFS มีขนาด 128 MB ดังนั้นเมื่อนำมาใชกับไฟล

                  ขนาดเล็กกวา 128 MB จำนวนมากจะทำงานไดไมดี วิธีแกปญหานี้คือการรวมเอาไฟลขนาดเล็กเขาดวยกันใหเปนไฟลขนาด
                  ใหญแลวจึงนำเขาสู HDFS

                           2.  การประมวลผลชา ดวยการทำงานแบบขนานและอัลกอริทึมแบบกระจายการประมวลผลขอมูลจำนวนมาก

                  ของ MapReduce โดยกระบวนการ Map และ Reduce จึงทำใหการทำงานตองใชเวลาคอนขางสูงจึงทำใหคาเวลาแฝง
                  (latency  สูงขึ้นตามไปดวย นอกจากนี้ขอมูลยังถูกกระจายอยูและประมวลผลบนคลัสเตอรอีกดวย การแกปญหาเรื่อง

                  ความเร็วในการทำงานสามารถทำไดโดยการประมวลผลขอมูลในหนวยความจำหลักเพื่อลดการรอคอยของการดึงขอมูลจาก

                  ดิสกเชนเดียวกับ Spark ซึ่งทำใหความเร็วในการทำงานในสวนนี้สูงขึ้นกวา 100 เทา






                   INTRODUCTION TO IOT ANALYTICS USING HADOOP                                        สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร
   16   17   18   19   20   21   22   23   24   25   26