Page 30 - Analisis Statistik Bigdata menggunakan Aplikasi Phyton
        P. 30
     sheets, formatting, formulas, charts, dan metadata lainnya. Microsoft Excel dapat
                            diimport  dalam  Python.  Python  menyediakan  beberapa  library  untuk  bekerja
                            dengan file Excel, dengan Pandas, openpyxl, dan xlrd menjadi pilihan yang paling
                            populer,  masing-masing  dengan  karakteristik  dan  digunakan  pada  kasus  yang
                            berbeda-beda.
                                    JSON telah menjadi de facto standard untuk data interchange di web APIs
                            dan aplikasi moderen karena human-readable format, simplicity, dan native support
                            di hampir semua bahasa program seperti: JavaScript, Python, dan lainnya. Struktur
                            JSON yang hierarki dan fleksibel membuatnya ideal untuk menampilkan complex
                            nested data yang tidak fit dengan baik dalam tabular formats seperti CSV. Python
                            mendukung untuk bekerja dengan JSON data melalui membangun Modul JSON
                            dan terintegrasi dengan Pandas.
                            c.  Pembersihan dan Proses Data
                                      Pembersihan dan proses data merupakan tahapan yang penting dalam
                            analisis data yang memerlukan banyak waktu. Tahapan pembersihan dan proses
                            data mencakup serangkaian kegiatan untuk mengidentifikasi, memperbaiki, atau
                            menghapus data yang tidak akurat, tidak lengkap, tidak konsisten, atau tidak relevan
                            dari dataset. Data yang diperoleh dari berbagai sumber dalam dunia nyata jarang
                            sekali berada dalam kondisi ideal untuk langsung dianalisis. Data bisa mengandung
                            nilai yang hilang, duplikasi, outliers, format yang tidak konsisten, kesalahan input,
                            atau  struktur  yang  tidak  sesuai  dengan  kebutuhan  analisis.  Kualitas  output  dari
                            analisis data sangat bergantung pada kualitas input data yang digunakan, mengikuti
                            prinsip  "garbage  in,  garbage  out".  Oleh  karena  itu,  pembersihan  data  yang
                            menyeluruh dan sistematis menjadi prasyarat untuk menghasilkan hasil yang valid,
                            reliabel, dan tindaklanjut dari analisis data.
                                   Proses data atau data processing data  melibatkan transformasi data mentah
                            menjadi format yang lebih terstruktur, bermakna, dan siap dianalisis. Ini mencakup
                            berbagai  operasi  seperti  filtering,  aggregation,  merging,  reshaping,  feature
                            engineering, normalisasi, encoding, dan transformasi lainnya yang membuat data
                            lebih suitable untuk tujuan analisis spesifik atau algoritma machine learning yang





