Page 31 - Analisis Statistik Bigdata menggunakan Aplikasi Phyton
P. 31

akan  digunakan.  Data  processing  yang  efektif  tidak  hanya  membersihkan  data
                            tetapi juga mengekstrak informasi yang relevan, menciptakan features baru yang

                            informatif,  dan  mengorganisir  data  dalam  struktur  yang  optimal  untuk  analisis
                            downstream. Pemahaman mendalam tentang teknik pembersihan dan processing

                            data,  tools  yang  tersedia,  dan  latihan  dalam  implementasinya  merupakan

                            kompetensi awal yang harus dikuasai.
                            d.  Mengatasi data yang hilang (Handling missing values) & outliers

                                   Data yang hilang dan outliers merupakan dua tantangan paling umum dan
                            signifikan dalam analisis data yang dapat secara dramatis mempengaruhi validitas,

                            akurasi, dan reliabilitas dari hasil analisis serta performa model machine learning.

                            Missing  values  atau  nilai  yang  hilang  terjadi  ketika  tidak  ada  nilai  data  yang
                            tersimpan  untuk  variabel  tertentu  dalam  observasi,  yang  dapat  disebabkan  oleh

                            berbagai faktor seperti kegagalan dalam pengumpulan data, kesalahan dalam entry
                            data, responden yang tidak menjawab pertanyaan tertentu, kegagalan sensor atau

                            sistem, atau data yang memang belum tersedia pada saat pengumpulan. Prevalensi

                            missing  values  dalam  dataset  real-world  sangat  tinggi,  dengan  beberapa  studi
                            menunjukkan  bahwa  lebih  dari  90%  dataset  dalam  praktik  bisnis  mengandung

                            missing  values  dalam  jumlah  yang  signifikan.  Penanganan  yang  tidak  tepat
                            terhadap  missing  values  dapat  menyebabkan  bias  dalam  estimasi  statistik,

                            kehilangan  informasi  berharga,  pengurangan  power  statistik,  dan  bahkan
                            kesimpulan yang misleading.

                                   Outliers  adalah  observasi  yang  secara  signifikan  berbeda  dari  observasi

                            lainnya  dalam  dataset,  menunjukkan  nilai  yang  ekstrem  atau  tidak  biasa
                            dibandingkan  dengan  distribusi  normal  data.  Outliers  dapat  muncul  karena

                            variabilitas alami dalam data yang diukur, kesalahan pengukuran atau instrumen,
                            kesalahan dalam data entry, atau karena observasi tersebut benar-benar mewakili

                            kejadian yang rare dan genuine. Keberadaan outliers dapat memiliki dampak yang

                            sangat besar terhadap analisis statistik, terutama pada pengukuran tendensi sentral
                            seperti rata-rata yang sangat sensitif terhadap nilai ekstrem, varians dan deviasi

                            standar  yang  dapat  meningkat  drastis,  hasil  dari  regresi  linear  di  outliers  dapat
   26   27   28   29   30   31   32   33   34   35   36