Page 97 - Neşide Dergisi 6.Sayı
P. 97
DOSYA
yöntem ve teknikler ile beraber kullanılırlar. K-En Yakın Komşu (K-Nearest Neighbour)
Bir sonraki bölümde bu yöntem ve teknikler Kümeleme ve sınıflandırma mantığından fark-
ele alınacaktır.
lı olarak, benzerlik ve yakınlık ilgisi ile kurulan
bir algoritma modelidir. Bu algoritma mode-
Veri Madenciliği Yöntem ve Teknikleri li belirli aşamalardan meydana gelmektedir
(Şeker, 2008);
Sınıflama ve Regresyon Modelleri
1. K değerinin belirlenmesi. (k= varolan veri
Veri madenciliğinde en yaygın olarak kullanı-
tanesi sabiti olarak kabul edilir.)
lan veri madenciliği metodudur. Bu metotla,
sınıfı belli olan verilerden sınıfı belli olmayan 2. K değerinin etrafındaki diğer verilerin, sa-
verilerin sınıfları belirlenmeye çalışılır. Veri ma- bit değişkene olan uzaklıkları hesaplanır.
denciliğinde yer alan sınıflama teknikleri şun- 3. Hesaplanan uzaklıklara göre, veriler ara-
lardır; Karar ağaçları, yapay sinir ağları(YSA), sında bir sıralama yapılır.
lojistik regresyon, genetik algoritmalar, bellek
4. Sabite en yakın olan komşunun kategori
temelli modelleme, en yakın komşu (KNN).
hesabı yapılır.
5. Çıkan değere göre, en yakın komşu veri
Yapay Sinir Ağları tespit edilir.
Yapay sinir ağları hakkında ayrıntılı bilgi yuka-
Veri Madenciliği Yöntem ve Teknikleri
rıda verilmiştir. Ulaşmak için buraya tıklayınız.
Sınıflama ve Regresyon Modelleri
Veri madenciliğinde en yaygın olarak kullanılan veri madenciliği metodudur. Bu metotla, sınıfı
Karar Ağaçları olmayan verilerin sınıfları belirlenmeye çalışılır. Veri
belli olan verilerden sınıfı belli
madenciliğinde yer alan sınıflama teknikleri şunlardır; Karar ağaçları, yapay sinir ağları(YSA),
Sınıflandır yaparak veya tahmin yaparak yürü-
lojistik regresyon, genetik algoritmalar, bellek temelli modelleme, en yakın komşu (KNN).
tülen bir sınıflama modeli olan karar ağaçları,
Yapay Sinir Ağları en çok kullanılan yöntem ve teknikler arasında
yer alır. Karar ağaçlarının tercih edilmesinde
Yapay sinir ağları hakkında ayrıntılı bilgi yukarıda verilmiştir. Ulaşmak için buraya tıklayınız.
ki en büyük etkenler şu şekilde sıralanabilir;
Karar Ağaçları maliyetinin çok fazla olmaması, kolay yorum-
Sınıflandır yaparak veya tahmin yaparak yürütülen bir sınıflama modeli olan karar ağaçları, en
lanabilir veya anlaşılabilir olması, güvenilirlik
çok kullanılan yöntem ve teknikler arasında yer alır. Karar ağaçlarının tercih edilmesinde ki en
ve uygulanabilirlik gibi etkenlerinin güçlü ol-
büyük etkenler şu şekilde sıralanabilir; maliyetinin çok fazla olmaması, kolay yorumlanabilir
ması, sınıflama yapısın açık ve anlaşılır olması
veya anlaşılabilir olması, güvenilirlik ve uygulanabilirlik gibi etkenlerinin güçlü olması,
(Çalış, Kayapınar, & Çetinyokuş, 2014).
sınıflama yapısın açık ve anlaşılır olması (Çalış, Kayapınar, & Çetinyokuş, 2014).
Şekil 8. Var olan üyeler.
Şekil 8 Var olan üyeler.
Şekil 8 Var olan üyeler.
Şekil 9 Yeni gelen üye. YAPAY ZEKÂ
Şekil 9 Yeni gelen üye.
Şekil 9. Yeni gelen üye.
.
Şekil 7. Örnek karar ağacı şeması
.
Şekil 7 Örnek karar ağacı şeması
K-En Yakın Komşu (K-Nearest Neighbour)
Kümeleme ve sınıflandırma mantığından farklı olarak, benzerlik ve yakınlık ilgisi ile kurulan
bir algoritma modelidir. Bu algoritma modeli belirli aşamalardan meydana gelmektedir (Şeker, 95
2008);
1. K değerinin belirlenmesi. (k= varolan veri tanesi sabiti olarak kabul edilir.)
2. K değerinin etrafındaki diğer verilerin, sabit değişkene olan uzaklıkları hesaplanır.
3. Hesaplanan uzaklıklara göre, veriler arasında bir sıralama yapılır.
4. Sabite en yakın olan komşunun kategori hesabı yapılır.
5. Çıkan değere göre, en yakın komşu veri tespit edilir.
Şekil 10 Yeni gelen üyenin komşu algılaması
Şekil 10 Yeni gelen üyenin komşu algılaması