Page 111 - E Modul Data Analytics
P. 111
Data Analytics
Xkj = nilai data ke-k variabel ke-j untuk cluster tersebut
3) Pada masing-masing record, hitung jarak terdekat dengan Centroid. Ada beberapa cara
yang dapat digunakan untuk mengukur jarak data ke pusat kelompok, diantaranya
Euclidean, Manhattan/City Block, dan Minkowsky. Setiap cara memiliki kelebihan dan
kekurangan masing-masing. Untuk penulisan pada bab ini, jarak Centroid yang digunakan
adalah Euclidean Distance, dengan rumus seperti dibawah ini:
= √( − ) + ( − ) ……………………. (2)
2
2
Keterangan:
De = Euclidean Distance
2
i = Banyaknya objek
(x, y) = Koordinat objek
(s, t) = Koordinat Centroid
4) Kelompokkan objek berdasarkan jarak ke Centroid terdekat
5) Ulangi langkah ke-3 hingga langkah ke-4, lakukan iterasi hingga Centroid bernilai optimal.
8.2.2 Algoritma Hierarchical Clustering
Algoritma Hierarchical Clustering adalah pengelompokan data dilakukan dengan
membuat suatu bagan hirarki (dendrogram) dengan tujuan menunjukkan kemiripan antar data.
Setiap data yang mirip akan memiliki hubungan hirarki yang dekat dan membentuk cluster data.
Bagan hirarki akan terus berbentuk hingga seluruh data terhubung dalam bagan hirarki
tersebut. Cluster dapat dihasilkan dengan memotong bagan hirarki tersebut. Beberapa metode
dalam hierarchical clustering yaitu single linkage, complete linkage, average linkage, dan ward’s
minimum variance(Zuhal, 2022). Gambar 8.3 menggambarkan perbedaan antara ketiga metode
tersebut.
Gambar 8. 3 Perbedaan metode single linkage, complete linkage, average linkage
99