Page 33 - 5.Introduction to IoT Analytics using hadoop
P. 33
หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop 32
3.9 Tool อื่นๆ ที่ควรรูจัก
ตอนนี้พอจะเห็นภาพกันคราวๆ แลววา Hadoop มันชวยอะไรไดบาง ทีนี้มาดู tool ตัวอื่นๆ ที่เคานิยมใชรวมกับ
Hadoop กันวามันมีอะไรบาง
Apache Pig
หากไมถนัดทางดานการเขียนโปรแกรมเทาไร หรือบางทีแคอยากจะวิเคราะหอะไรงายๆ ไมอยากมานั่งเสียเวลาเขียน
โปรแกรม Apache Pig ชวยได คือระบบจะคลายๆ กับการทำ MapReduce เลย เพียงแต Pig จะมีฟเจอรที่เรียกวา Pig Latin ที่
จะทำใหสามารถ query ขอมูลดวยคำสั่งงายๆ ไดดวย อยางการวิเคราะหหาคนอายุเยอะสุดกอนหนานี้ ก็จะใชคำสั่ง LOAD
ขอมูลจากไฟล CSV มากอน จากนั้นก็ GROUP คนที่อายุสูงสุดตามจังหวัด แลวก็ FOREACH จังหวัดทั้งหมด เพื่อหาคำตอบวา
คนไหนที่อายุเยอะที่สุด สุดทายก็ STORE ผลลัพธออกมาเก็บเปนไฟล โดยลองดูตัวอยางคำสั่งของ Pig ตามดานลางนี้
1. A = LOAD ‘myfile.txt’ USING PigStorage( AS (t, u, v ;
2. B = GROUP A BY t;
3. C = FOREACH B GENERATE group, COUNT(A.t as mycount;
4. D = ORDER C BY mycount;
5. STORE D INTO ‘mysortedcount’ USING PigStorage( ;
จะเห็นวาโคด Pig Latin นี่จะอานไดเขาใจไดงาย สวนวิธีรันก็งายๆ ฮะ ใหเซฟคำสั่งเหลานี้เปนไฟล .pig แลว
อัปโหลดขึ้น HDFS จากนั้นก็รันผาน command-line ไดเลย
Apache Hive
สวน Apache Hive นี่ก็จะคลายๆ กันเลย เพียงแตจะเปลี่ยนจากการเขียน Pig Latin มาเปนการใช HiveQL ซึ่งมี
syntax ใกลเคียงกับ SQL ตัวอยาง HiveQL ดานลางนี้
1. SELECT age FROM people
2. WHERE province = 'bangkok'
3. GROUP BY city
4. ORDER BY age DESC
ระบบจะทำ query แบบงายๆ ไดรวดเร็ว และถามีการคำนวณมันซับซอนมากๆ สามารถเขียน MapReduce ได
Apache Spark
INTRODUCTION TO IOT ANALYTICS USING HADOOP สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร