Page 22 - Entertech Dergi Sayı 1
P. 22
detini ve verideki gürültünün Eksik veriler, yapılacak olan is- ihtimali söz konusudur ve bu
derecesini ifade etmektedir. tatistiksel analizlerde önemli yanlışlardan dolayı veri ma-
problemlerin doğmasına se- denciliği uygulamaları amacı-
Boş Veri: Bir veri tabanındaki bep olmaktadır. İstatistiksel na kesin olarak ulaşamamak-
boş değer, birincil anahtarda analizler ve bu analizlerin ya- tadır.
yer almayan herhangi bir ni- pılmasına olanak veren ilgili
teliğin değerinin olma olasılı- paket programlar, verilerin tü- Sınırlı Bilgi: Veri tabanları, ge-
ğını ifade etmektedir. Boş de- münün var olduğu durumlar nellikle basit öğrenme işlerini
ğer, tanımı gereği kendisi de için geliştirilmiştir. sağlayan özellik ya da nite-
dahil olmak üzere hiçbir de- likleri sunmak gibi veri ma-
ğere denk olamayan değerleri Farklı Tipteki Verileri Ele denciliği dışındaki amaçları
içermektedir. Alma: Gerçek hayattaki uygu- için hazırlanmaktadır. Bundan
lamalar makine öğreniminde dolayı öğrenme yetisini ko-
Dinamik Veri: Kurumsal çev- olduğu gibi yalnızca sembo- laylaştıracak bazı özelliklerin
rimiçi veri tabanları dinamik- lik veya kategorik veri türle- bulunmama olasılığı da söz
tir ve içeriği sürekli olarak ri değil, fakat aynı zamanda konusudur.
değişim göstermektedir. Bu tamsayı, kesirli sayılar, çoklu
durum bilginin keşfedilme sü- ortam verisi, coğrafi bilgi içe- Veri Tabanı Boyutu: Veri ta-
recinde büyük sakıncaları da ren veri gibi farklı tipteki veri- banı boyutları gün geçtikçe
ifade etmektedir. ler üzerinde işlem yapılmasını büyük bir hızla artmaktadır.
gerektirmektedir. Veri tabanı algoritması çok
Eksik Veri: Veri kümesinin sayıda küçük örneklemi ele
hacminden ya da doğasın- Gürültülü ve Kayıp Değerler: alabilecek biçimde gelişti-
dan kaynaklanan bir durumu Veri girişi veya veri toplanma- rilmiştir. Aynı algoritmaların
ifade etmektedir. Eksik veriler sı esnasında oluşan sistem katsayı olarak çok büyük ör-
ile karşılaşıldığında yapılması dışı hatalar gürültü olarak neklemlerde kullanılabilmesi
gerekenler şunlardır: adlandırılmaktadır. Büyük ha- için dikkat edilmesi gerek-
• Eksik veri içeren kayıt cimli veri tabanlarındaki pek mektedir.
veya kayıtlar çıkarılabilir. çok nitelik değer açısından
• Değişkenin ortalaması yanlış olabilmektedir. Verilerin Her dakikada
eksik verilerin yerine kul- toplanması esnasında oluşan Facebook kullanıcıları
lanılabilir. hatalara ölçümden kaynakla- yaklaşık 31.25 milyon
• Var olan verilere daya- nan hatalar da dahil edilmek- mesaj gönderiyor ve
lı olarak en uygun değer tedir. Bu hataların neticesinde 2.77 milyon video
kullanılabilir. niteliğin değerinin yanlış olma izliyor.
20