Page 30 - Analisis Statistik Bigdata menggunakan Aplikasi Phyton
P. 30
sheets, formatting, formulas, charts, dan metadata lainnya. Microsoft Excel dapat
diimport dalam Python. Python menyediakan beberapa library untuk bekerja
dengan file Excel, dengan Pandas, openpyxl, dan xlrd menjadi pilihan yang paling
populer, masing-masing dengan karakteristik dan digunakan pada kasus yang
berbeda-beda.
JSON telah menjadi de facto standard untuk data interchange di web APIs
dan aplikasi moderen karena human-readable format, simplicity, dan native support
di hampir semua bahasa program seperti: JavaScript, Python, dan lainnya. Struktur
JSON yang hierarki dan fleksibel membuatnya ideal untuk menampilkan complex
nested data yang tidak fit dengan baik dalam tabular formats seperti CSV. Python
mendukung untuk bekerja dengan JSON data melalui membangun Modul JSON
dan terintegrasi dengan Pandas.
c. Pembersihan dan Proses Data
Pembersihan dan proses data merupakan tahapan yang penting dalam
analisis data yang memerlukan banyak waktu. Tahapan pembersihan dan proses
data mencakup serangkaian kegiatan untuk mengidentifikasi, memperbaiki, atau
menghapus data yang tidak akurat, tidak lengkap, tidak konsisten, atau tidak relevan
dari dataset. Data yang diperoleh dari berbagai sumber dalam dunia nyata jarang
sekali berada dalam kondisi ideal untuk langsung dianalisis. Data bisa mengandung
nilai yang hilang, duplikasi, outliers, format yang tidak konsisten, kesalahan input,
atau struktur yang tidak sesuai dengan kebutuhan analisis. Kualitas output dari
analisis data sangat bergantung pada kualitas input data yang digunakan, mengikuti
prinsip "garbage in, garbage out". Oleh karena itu, pembersihan data yang
menyeluruh dan sistematis menjadi prasyarat untuk menghasilkan hasil yang valid,
reliabel, dan tindaklanjut dari analisis data.
Proses data atau data processing data melibatkan transformasi data mentah
menjadi format yang lebih terstruktur, bermakna, dan siap dianalisis. Ini mencakup
berbagai operasi seperti filtering, aggregation, merging, reshaping, feature
engineering, normalisasi, encoding, dan transformasi lainnya yang membuat data
lebih suitable untuk tujuan analisis spesifik atau algoritma machine learning yang

