Page 33 - 5.Introduction to IoT Analytics using hadoop
P. 33

หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop   32



                  3.9  Tool อื่นๆ ที่ควรรูจัก


                           ตอนนี้พอจะเห็นภาพกันคราวๆ แลววา Hadoop มันชวยอะไรไดบาง ทีนี้มาดู tool ตัวอื่นๆ ที่เคานิยมใชรวมกับ

                  Hadoop กันวามันมีอะไรบาง

                        Apache Pig

                           หากไมถนัดทางดานการเขียนโปรแกรมเทาไร หรือบางทีแคอยากจะวิเคราะหอะไรงายๆ ไมอยากมานั่งเสียเวลาเขียน

                  โปรแกรม Apache Pig ชวยได คือระบบจะคลายๆ กับการทำ MapReduce เลย เพียงแต Pig จะมีฟเจอรที่เรียกวา Pig Latin ที่

                  จะทำใหสามารถ query ขอมูลดวยคำสั่งงายๆ ไดดวย อยางการวิเคราะหหาคนอายุเยอะสุดกอนหนานี้ ก็จะใชคำสั่ง LOAD
                  ขอมูลจากไฟล CSV มากอน จากนั้นก็ GROUP คนที่อายุสูงสุดตามจังหวัด แลวก็ FOREACH จังหวัดทั้งหมด เพื่อหาคำตอบวา

                  คนไหนที่อายุเยอะที่สุด สุดทายก็ STORE ผลลัพธออกมาเก็บเปนไฟล โดยลองดูตัวอยางคำสั่งของ Pig ตามดานลางนี้

                                  1.  A = LOAD ‘myfile.txt’ USING PigStorage(  AS (t, u, v ;


                                  2.  B = GROUP A BY t;

                                  3.  C = FOREACH B GENERATE group, COUNT(A.t  as mycount;


                                  4.  D = ORDER C BY mycount;

                                  5.  STORE D INTO ‘mysortedcount’ USING PigStorage( ;


                           จะเห็นวาโคด Pig Latin นี่จะอานไดเขาใจไดงาย สวนวิธีรันก็งายๆ ฮะ ใหเซฟคำสั่งเหลานี้เปนไฟล .pig แลว
                  อัปโหลดขึ้น HDFS จากนั้นก็รันผาน command-line ไดเลย


                        Apache Hive

                           สวน Apache Hive นี่ก็จะคลายๆ กันเลย เพียงแตจะเปลี่ยนจากการเขียน Pig Latin มาเปนการใช HiveQL ซึ่งมี

                  syntax ใกลเคียงกับ SQL ตัวอยาง HiveQL ดานลางนี้

                                    1.  SELECT age FROM people


                                    2.  WHERE province = 'bangkok'

                                    3.  GROUP BY city


                                    4.  ORDER BY age DESC

                           ระบบจะทำ query แบบงายๆ ไดรวดเร็ว และถามีการคำนวณมันซับซอนมากๆ สามารถเขียน MapReduce ได

                        Apache Spark









                   INTRODUCTION TO IOT ANALYTICS USING HADOOP     สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร
   28   29   30   31   32   33   34   35   36   37   38