Page 22 - E Modul Data Analytics
P. 22
Data Analytics
dibutuhkan, masalah lain yang perlu diperhatikan adalah menggunakan yang sumber data yang
baik dan terpercaya. Banyak bidang yang memerlukan pencarian data dari dunia sekitar,
seringkali mengandalkan data eksperimen eksternal, atau bahkan lebih sering
mengumpulkannya melalui wawancara atau survei. Pengumpulan data dan mendefinisikan apa
yang paling sesuai dengan proses bisnis tersebut. Data yang didapatkan berupa kuantitatif atau
data kualitatif. Pengumpulan data ini dapat dikerjakan dengan cara: pemantauan media sosial,
survei, analisis website, dan sebagainya.
1.5.2 Pembersihan Data
Setelah data terkumpul yang mana masih bersifat data
mentah, maka langkah berikutnya adalah membersihkan data (data
cleaning) dari kesalahan, outlier, maupun data duplikat untuk
memastikan validitas dan akurasi data. Data awal yang sudah
dikumpulkan umumnya masih berupa data mentah (razo data) yang
belum diorganisir. Selanjutnya data ini perlu "dibersihkan" dari
berbagai gangguan atau yang biasa disebut dengan istilah data
cleaning agar membuatnya lebih mudah untuk dianalisis. Beberapa proses pembersihan data
diantaranya menghapus duplikat, kesalahan, outlier, memperbaiki struktur, menghapus data
yang tidak sesuai dalam proses bisnis yang diinginkan, menangani data yang hilang, serta
validasinya.
1.5.3 Persiapan Data
Di antara semua langkah yang terlibat dalam analisis data, persiapan data, meskipun
tampaknya tidak terlalu bermasalah, pada kenyataannya membutuhkan lebih banyak sumber
daya dan lebih banyak waktu untuk diselesaikan. Data sering dikumpulkan dari sumber data
yang berbeda, yang masing-masing akan memiliki data di dalamnya dengan representasi dan
format yang berbeda. Jadi, semua data ini harus disiapkan untuk proses analisis data.
Persiapan data berkaitan dengan perolehan, pembersihan, normalisasi, dan mengubah
data menjadi kumpulan data yang dioptimalkan, yaitu dalam format yang biasanya disiapkan
dalam bentuk tabel dan cocok untuk metode analisis yang telah dijadwalkan selama fase
desain. Banyak potensi masalah dapat muncul, termasuk nilai yang tidak valid, ambigu, atau
hilang, bidang yang direplikasi, dan data di luar jangkauan.
10