Page 15 - 3.Big Data Analytics
P. 15
หลักสูตรการวิเคราะห์ข้อมูลขนาดใหญ่ 14
Section 3: Clustering big data Clustering social networks Apply hierarchical clustering Apply k-means
clustering
3.1 วัตถุประสงคการเรียนรู
1) ทราบความหมายของการแบงกลุมขอมูล
2) เขาใจระเบียบวิธีการแบงกลุมแบบ K-means Clustering
3) เขาใจระเบียบวิธีการแบงกลุมแบบ Hierarchical Clustering
3.2 การแบงกลุมขอมูล
การแบงกลุมขอมูล (clustering เปนการวิเคราะหขอมูลที่นิยมใชในการเรียนรูของเครื่อง และการทำเหมือง
ขอมูลโดยจะจัดกลุมของขอมูลสำรวจ (ซึ่งมักจะอยูในรูปเวกเตอร ใหเปนเซ็ตยอย (เรียกวา กลุม หรือ cluster โดยที่ขอมูลที่
มีคุณลักษณะเดียวกันจะถูกจัดกลุมรวมไวในกลุมเดียวกัน การแบงกลุมขอมูลจัดเปนวิธีการเรียนรูแบบไมมีผูสอน
(unsupervised learning และเปนวิธีที่ใชกันทั่วไปในการวิเคราะหขอมูลทางสถิติ ซึ่งขั้นตอนวิธีที่ใชใ นการแบงกลุมขอมูล
จะอาศัยความคลาย(similarity หรือความใกลชิด( proximity โดยการวัดระยะหางระหวางเว กเตอรของขอมูลดวยการวัด
ระยะแบบตางๆ เชนระยะหางแบบยุคลิค(Euclidean distance , การวัดระยะแบบแมนฮัตตัน (Manhattan (City-block
distance , การวัดระยะแบบเชบิเชฟ (Chebychev distance สำหรับระเบียบวิธีการแบงกลุมที่นิยมใชไดแก k-means
clustering, hierarchical clustering, self-organizing map (som
3.3 ระเบียบวิธีการแบงกลุมแบบ K-means
K-means หรือเรียกอีกอยางหนึ่งวา การวิเคราะหกลุมแบบไมเปน ขั้นตอน (Nonhierarchical Cluster
Analysis หรือ การแบงสวน ( Partitioning เปนรูปแบบการเรียนรูแบบไมมีผูสอน ที่งายที่สุด เปนการแกปญหาการจัดกลุมที่
รูจักกันทั่วไป โดยระเบียบวิธีแบบ K-Means จะตัดแบง (Partition ขอมูลออกเปน K กลุม และแทนคาของแตละกลุมดวย
คาเฉลี่ยของกลุม ซึ่งใชเปนจุดศูนยกลาง (centroid ของกลุมในการวัดระยะหางของขอมูลในกลุมเดียวกัน โดยระเบียบ
วิธีการจัดกลุมแบบ K-means มีขั้นตอนดังนี้
1) สุมคาเริ่มตน และกำหนดจุดศูนยกลางเริ่มตน k ตำแหนง เรียกวา cluster centers หรือ centroid
2) ทำการจัดกลุมขอมูลทั้งหมดโดยการหาระยะหางระหวางขอมูลกับจุดศูนยกลางที่กำหนดใน (1 โ ดย
กำหนดใหขอมูลใดๆ ถูกจัดอยูในกลุมที่มีจุดศูนยกลางใกลที่สุด
3) หาคาเฉลี่ย (Mean ของแตละกลุมและกำหนดใหเปนคาจุดศูนยกลางใหม
4) ดำเนินการ (2 ซ้ำจนกระทั่งคาเฉลี่ยหรือจุดศูนยกลางในแตละกลุมจะคงที่
BIG DATA ANALYTICS สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร