Page 31 - Analisis Statistik Bigdata menggunakan Aplikasi Phyton
P. 31
akan digunakan. Data processing yang efektif tidak hanya membersihkan data
tetapi juga mengekstrak informasi yang relevan, menciptakan features baru yang
informatif, dan mengorganisir data dalam struktur yang optimal untuk analisis
downstream. Pemahaman mendalam tentang teknik pembersihan dan processing
data, tools yang tersedia, dan latihan dalam implementasinya merupakan
kompetensi awal yang harus dikuasai.
d. Mengatasi data yang hilang (Handling missing values) & outliers
Data yang hilang dan outliers merupakan dua tantangan paling umum dan
signifikan dalam analisis data yang dapat secara dramatis mempengaruhi validitas,
akurasi, dan reliabilitas dari hasil analisis serta performa model machine learning.
Missing values atau nilai yang hilang terjadi ketika tidak ada nilai data yang
tersimpan untuk variabel tertentu dalam observasi, yang dapat disebabkan oleh
berbagai faktor seperti kegagalan dalam pengumpulan data, kesalahan dalam entry
data, responden yang tidak menjawab pertanyaan tertentu, kegagalan sensor atau
sistem, atau data yang memang belum tersedia pada saat pengumpulan. Prevalensi
missing values dalam dataset real-world sangat tinggi, dengan beberapa studi
menunjukkan bahwa lebih dari 90% dataset dalam praktik bisnis mengandung
missing values dalam jumlah yang signifikan. Penanganan yang tidak tepat
terhadap missing values dapat menyebabkan bias dalam estimasi statistik,
kehilangan informasi berharga, pengurangan power statistik, dan bahkan
kesimpulan yang misleading.
Outliers adalah observasi yang secara signifikan berbeda dari observasi
lainnya dalam dataset, menunjukkan nilai yang ekstrem atau tidak biasa
dibandingkan dengan distribusi normal data. Outliers dapat muncul karena
variabilitas alami dalam data yang diukur, kesalahan pengukuran atau instrumen,
kesalahan dalam data entry, atau karena observasi tersebut benar-benar mewakili
kejadian yang rare dan genuine. Keberadaan outliers dapat memiliki dampak yang
sangat besar terhadap analisis statistik, terutama pada pengukuran tendensi sentral
seperti rata-rata yang sangat sensitif terhadap nilai ekstrem, varians dan deviasi
standar yang dapat meningkat drastis, hasil dari regresi linear di outliers dapat

