Page 38 - 3.Big Data Analytics
P. 38
หลักสูตรการวิเคราะห์ข้อมูลขนาดใหญ่ 37
Section 16: Big Data Architecture and Analytics Platforms with Hadoop’s architecture
16.1 วัตถุประสงคการเรียนรู
1) เขาใจสถาปตยกรรมของ Hadoop
2) เขาใจระบบนิเวศของ Hadoop
16.2 Hadoop
ตามนิยามคุณลักษณะของขอมูลขนาดใหญ ดวย 3V: Volume, Variety และ Velocity นั้นเครื่องมือในการ
ทำ การวิเคราะหขอมูลขนาดใหญ ก็จะตองเปลี่ยนไปจากที่เคยใช RDBMS ที่เปน SQL ตองเปลี่ยนเปนเครื่องมืออื่นๆ ที่
สามารถจัดการขอมูลไดจำนวนมากขึ้นอยาง NewSQL เชน MySQL Cluster, Amazon RDS หรือ Azure SQL หรือ
เครื่องมือที่เปน NoSQL อยาง MongoDB หรือ Cassandra และเครื่องมืออยาง Hadoop ที่ไดรับความสนใจอยางกวาง
เพราะสามารถที่จะจัดการขอมูล Unstructured ขนาดใหญได เชนขอมูลที่ เปน Text File, XML หรือ JSON
Hadoop เปน Open source Project ของ Apache สำหรับการเก็บและบริหารขอมูลขนาดใหญ (Holmes,
2012 Hadoop เขียนดวยโปรแกรมภาษาจาวา มีความสามารถในการทำ Fault Tourarent เพราะจะเก็บขอมูลซ้ำกันใน
หลายๆ ที่ และเปนระบบที่เปน Horizontal Scale ที่รันบนเครื่อง commodity server จำนวนมาก Hadoop Project
เริ่มตนโดย Doug Cutting และ Mike Cafarella ที่เปนทีมงานของบริษัท Yahoo ซึ่งตอมาก็มีบริษัทอื่นๆ นำไปใชกันอยาง
กวางขวางเชน eBay, Facebook และ Amazon รวมถึงมีบริษัทหลายๆ รายที่นำ Hadoop มาทำ Commercial
Distribution อาทิเชน Cloudera, MapR, IBM Infoshphere BigInsight, Hortonwork ดังรูปที่ 16.1 สภาพแวดลอมของ
Hadoop
รูปที่ 16.1 สภาพแวดลอมของ Hadoop
(Forrester, 2016
BIG DATA ANALYTICS สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร