Page 15 - 3.Big Data Analytics
P. 15

หลักสูตรการวิเคราะห์ข้อมูลขนาดใหญ่   14




                  Section 3: Clustering big data Clustering social networks Apply hierarchical clustering Apply  k-means

                  clustering



                  3.1    วัตถุประสงคการเรียนรู


                           1)  ทราบความหมายของการแบงกลุมขอมูล

                           2)  เขาใจระเบียบวิธีการแบงกลุมแบบ K-means Clustering


                           3)  เขาใจระเบียบวิธีการแบงกลุมแบบ Hierarchical Clustering

                  3.2 การแบงกลุมขอมูล


                             การแบงกลุมขอมูล (clustering  เปนการวิเคราะหขอมูลที่นิยมใชในการเรียนรูของเครื่อง และการทำเหมือง
                  ขอมูลโดยจะจัดกลุมของขอมูลสำรวจ (ซึ่งมักจะอยูในรูปเวกเตอร ใหเปนเซ็ตยอย  (เรียกวา กลุม หรือ cluster โดยที่ขอมูลที่

                  มีคุณลักษณะเดียวกันจะถูกจัดกลุมรวมไวในกลุมเดียวกัน การแบงกลุมขอมูลจัดเปนวิธีการเรียนรูแบบไมมีผูสอน

                  (unsupervised learning และเปนวิธีที่ใชกันทั่วไปในการวิเคราะหขอมูลทางสถิติ ซึ่งขั้นตอนวิธีที่ใชใ นการแบงกลุมขอมูล
                  จะอาศัยความคลาย(similarity หรือความใกลชิด( proximity โดยการวัดระยะหางระหวางเว กเตอรของขอมูลดวยการวัด

                  ระยะแบบตางๆ เชนระยะหางแบบยุคลิค(Euclidean distance , การวัดระยะแบบแมนฮัตตัน (Manhattan (City-block

                  distance , การวัดระยะแบบเชบิเชฟ (Chebychev distance   สำหรับระเบียบวิธีการแบงกลุมที่นิยมใชไดแก k-means

                  clustering, hierarchical clustering, self-organizing map (som
                  3.3 ระเบียบวิธีการแบงกลุมแบบ K-means


                             K-means หรือเรียกอีกอยางหนึ่งวา การวิเคราะหกลุมแบบไมเปน ขั้นตอน (Nonhierarchical Cluster

                  Analysis หรือ การแบงสวน ( Partitioning เปนรูปแบบการเรียนรูแบบไมมีผูสอน ที่งายที่สุด เปนการแกปญหาการจัดกลุมที่
                  รูจักกันทั่วไป โดยระเบียบวิธีแบบ K-Means จะตัดแบง (Partition ขอมูลออกเปน  K กลุม และแทนคาของแตละกลุมดวย

                  คาเฉลี่ยของกลุม ซึ่งใชเปนจุดศูนยกลาง (centroid ของกลุมในการวัดระยะหางของขอมูลในกลุมเดียวกัน  โดยระเบียบ

                  วิธีการจัดกลุมแบบ K-means มีขั้นตอนดังนี้

                             1)  สุมคาเริ่มตน และกำหนดจุดศูนยกลางเริ่มตน k ตำแหนง เรียกวา cluster centers หรือ centroid


                             2)  ทำการจัดกลุมขอมูลทั้งหมดโดยการหาระยะหางระหวางขอมูลกับจุดศูนยกลางที่กำหนดใน (1 โ ดย
                                กำหนดใหขอมูลใดๆ ถูกจัดอยูในกลุมที่มีจุดศูนยกลางใกลที่สุด


                             3)  หาคาเฉลี่ย (Mean ของแตละกลุมและกำหนดใหเปนคาจุดศูนยกลางใหม

                             4)  ดำเนินการ (2 ซ้ำจนกระทั่งคาเฉลี่ยหรือจุดศูนยกลางในแตละกลุมจะคงที่







                   BIG DATA ANALYTICS                             สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร
   10   11   12   13   14   15   16   17   18   19   20