Page 108 - E Modul Data Analytics
P. 108
Data Analytics
8.1 Definisi metoda klastering
Klasterisasi atau clustering adalah proses
pengelompokan himpunan data ke dalam beberapa
grup atau klaster sedemikian hingga objek- objek
dalam suatu klaster memiliki kemiripan yang tinggi,
namun sangat berbeda (memiliki ketidakmiripan
yang tinggi) dengan objek- objek di klaster-klaster
lainnya (J Han et al. 2012). Kemiripan (similarities)
dan ketidakmiripan (dissimilarities) dihitung
berdasarkan nilai-nilai atribut yang menggambarkan objek-objek tersebut dan seringkali
melibatkan ukuran jarak.
Klasterisasi banyak digunakan dalam berbagai bidang dengan beragam aplikasi vital
yang sangat penting, di antaranya adalah: riset pasar, di mana klasterisasi digunakan untuk
segmentasi dan profiling pelanggan yang membantu dalam merancang strategi- strategi
produk, harga, tempat, dan promosi. Klasterisasi juga digunakan untuk mengimplementasikan
customer relationship management (CRM) yang efektif; sistem perekomendasi produk dalam
sistem jual beli online yang biasanya menggunakan pendekatan collaborative filtering, di mana
klasterisasi adalah bagian dasar dari collaborative filtering; business intelligence; sistem
keamanan; mesin pencarian di internet (search engine), dan sebagainya.
8.2 Algoritma / metodologi pada klastering : k-means, hirarki, dll
8.2.1 K-Means
Algoritma K-Means ditemukan oleh beberapa orang yaitu Lloyd (1957), Forgey (1965),
Friedman dan Rubin (1967), dan McQueen (1967). Ide dari pengelompokkan (Clustering)
pertama kali ditemukan oleh Lloyd pada tahun 1957, namun hal tersebut baru dipublikasi pada
tahun 1982. Pada tahun 1965 Forgey juga mempublikasikan teknik yang sama sehingga
terkadang dikenal sebagai Lloyd-Forgy (Primartha, 2018).
K-Means merupakan salah satu algoritma Clustering yang masuk dalam kelompok
Unsupervised learning yang digunakan untuk membagi data menjadi beberapa kelompok
dengan sistem partisi. Algoritma ini menerima masukan berupa data tanpa label kelas. Kali ini
96