Page 30 - Analisis Statistik Bigdata menggunakan Aplikasi Phyton
P. 30

sheets, formatting, formulas, charts, dan metadata lainnya. Microsoft Excel dapat
                            diimport  dalam  Python.  Python  menyediakan  beberapa  library  untuk  bekerja

                            dengan file Excel, dengan Pandas, openpyxl, dan xlrd menjadi pilihan yang paling
                            populer,  masing-masing  dengan  karakteristik  dan  digunakan  pada  kasus  yang

                            berbeda-beda.

                                    JSON telah menjadi de facto standard untuk data interchange di web APIs

                            dan aplikasi moderen karena human-readable format, simplicity, dan native support
                            di hampir semua bahasa program seperti: JavaScript, Python, dan lainnya. Struktur

                            JSON yang hierarki dan fleksibel membuatnya ideal untuk menampilkan complex
                            nested data yang tidak fit dengan baik dalam tabular formats seperti CSV. Python

                            mendukung untuk bekerja dengan JSON data melalui membangun Modul JSON

                            dan terintegrasi dengan Pandas.
                            c.  Pembersihan dan Proses Data

                                      Pembersihan dan proses data merupakan tahapan yang penting dalam
                            analisis data yang memerlukan banyak waktu. Tahapan pembersihan dan proses

                            data mencakup serangkaian kegiatan untuk mengidentifikasi, memperbaiki, atau
                            menghapus data yang tidak akurat, tidak lengkap, tidak konsisten, atau tidak relevan

                            dari dataset. Data yang diperoleh dari berbagai sumber dalam dunia nyata jarang

                            sekali berada dalam kondisi ideal untuk langsung dianalisis. Data bisa mengandung
                            nilai yang hilang, duplikasi, outliers, format yang tidak konsisten, kesalahan input,

                            atau  struktur  yang  tidak  sesuai  dengan  kebutuhan  analisis.  Kualitas  output  dari
                            analisis data sangat bergantung pada kualitas input data yang digunakan, mengikuti

                            prinsip  "garbage  in,  garbage  out".  Oleh  karena  itu,  pembersihan  data  yang

                            menyeluruh dan sistematis menjadi prasyarat untuk menghasilkan hasil yang valid,
                            reliabel, dan tindaklanjut dari analisis data.

                                   Proses data atau data processing data  melibatkan transformasi data mentah
                            menjadi format yang lebih terstruktur, bermakna, dan siap dianalisis. Ini mencakup

                            berbagai  operasi  seperti  filtering,  aggregation,  merging,  reshaping,  feature

                            engineering, normalisasi, encoding, dan transformasi lainnya yang membuat data
                            lebih suitable untuk tujuan analisis spesifik atau algoritma machine learning yang
   25   26   27   28   29   30   31   32   33   34   35