K-Nearest Neighbors (K-NN) Algoritması Nedir ?

21 Eylül 2024 tarihinde gönderilmiş Yusuf Kaya tarafından

Giriş

K-Nearest Neighbors (K-NN), makine öğreniminde sıkça kullanılan denetimli bir öğrenme algoritmasıdır. Sınıflandırma ve regresyon problemlerinde kullanılan bu algoritma, veriyi doğrudan eğitim setinden öğrenmeyip, tahmin yaparken eğitim verilerine en yakın $k$ komşuya bakarak çalışır. K-NN algoritması, basit olmasına rağmen birçok problemde etkili sonuçlar verebilen bir algoritmadır ve özellikle veriyi sezgisel olarak anlamak isteyenler için oldukça uygundur.

Bu makalede, K-NN algoritmasının çalışma prensibini, matematiksel temelini, avantaj ve dezavantajlarını, uygulama alanlarını ve performansını artırmak için kullanılan bazı yöntemleri inceleyeceğiz.

K-Nearest Neighbors (K-NN) Algoritması Nedir?

K-NN algoritması, sınıflandırma ve regresyon problemlerinde kullanılan basit bir algoritmadır. Bir veri noktasının sınıfını veya değerini, veri setindeki $k$ en yakın komşunun sınıflarına veya değerlerine bakarak tahmin eder. K-NN algoritması, bir veri noktasının hangi sınıfa ait olduğunu belirlemek için, komşuları arasında en çok hangi sınıfın temsil edildiğine bakar (oylama mantığı).

K-NN Algoritmasının Çalışma Prensibi

K-NN algoritmasının temel adımları şu şekildedir:

Küçük Bir K Değeri Belirleyin: İlk adımda, kaç komşuya bakılacağını gösteren $k$ değeri belirlenir. $k$ , pozitif bir tam sayı olmalıdır ve genellikle 3, 5, 7 gibi küçük değerler seçilir. Ancak $k$ değerinin seçimi, algoritmanın performansını doğrudan etkiler.
Uzaklık Hesaplayın: Test verisi ile eğitim verisindeki her bir nokta arasındaki uzaklık hesaplanır. En sık kullanılan uzaklık ölçümü Euclidean uzaklığıdır, ancak başka ölçümler de kullanılabilir. Euclidean uzaklığı aşağıdaki formülle hesaplanır:

$d (x, y) = \sqrt{\sum_{i = 1}^{n} (x_{i} - y_{i})^{2}}$

Burada $x$ ve $y$ , n boyutlu veri noktalarıdır.

En Yakın $k$ Komşuyu Bulun: Uzaklık hesaplandıktan sonra, test verisine en yakın $k$ komşu seçilir. Bu komşular, test verisiyle en kısa mesafeye sahip olan eğitim verisi noktalarıdır.
Tahmin Yapın: Seçilen $k$ komşunun sınıfına bakarak, test verisinin hangi sınıfa ait olduğunu belirleyin. Sınıflandırma problemlerinde, komşular arasında en çok tekrarlanan sınıf, test verisine atanır (çoğunluk oylaması). Regresyon problemlerinde ise, komşuların ortalama değeri tahmin olarak kullanılır.

K-NN Algoritmasının Matematiksel Temeli

K-NN algoritması, temelde veri noktaları arasındaki uzaklık ölçümlerine dayanır. Bu uzaklıklar, genellikle Euclidean uzaklığı ile hesaplanır. Farklı uzaklık ölçümleri de kullanılabilir:

Euclidean Uzaklığı: Veriler arasındaki doğrudan mesafeyi ölçer. En yaygın kullanılan uzaklık ölçümüdür.

$d (x, y) = \sqrt{\sum_{i = 1}^{n} (x_{i} - y_{i})^{2}}$

Manhattan Uzaklığı: İki veri noktası arasındaki mutlak farkların toplamını kullanır.

$d (x, y) = \sum_{i = 1}^{n} ∣ x_{i} - y_{i} ∣$

Minkowski Uzaklığı: Genel bir uzaklık ölçümüdür. Hem Euclidean hem de Manhattan uzaklığını kapsar ve $p$ parametresine göre özelleştirilir.

$d (x, y) = {(\sum_{i = 1}^{n} ∣ x_{i} - y_{i} ∣^{p})}^{1 / p}$

Uzaklık ölçümüne bağlı olarak, algoritmanın sonuçları değişebilir. Bu yüzden problem yapısına en uygun uzaklık ölçümünü seçmek önemlidir.

K-NN Algoritmasının Uygulama Alanları

K-NN algoritması, birçok farklı uygulama alanında kullanılabilir. Bazı yaygın kullanım alanları şunlardır:

1. Sınıflandırma Problemleri

K-NN en sık sınıflandırma problemlerinde kullanılır. Örneğin, bir e-posta mesajının spam olup olmadığını belirlemek, K-NN ile yapılabilir. Aynı şekilde, hastaların tıbbi verilerine bakarak hangi hastalığa sahip olduklarını tahmin etmekte de kullanılabilir.

2. Regresyon Problemleri

K-NN, sınıflandırma dışında regresyon problemlerinde de kullanılabilir. Bu durumda, komşuların etiketlerinin ortalaması alınarak sürekli bir değer tahmini yapılır. Örneğin, bir evin konumuna ve özelliklerine göre fiyatını tahmin etmek için kullanılabilir.

3. Desen Tanıma

K-NN algoritması, el yazısı karakterlerin veya görüntüdeki nesnelerin tanınması gibi desen tanıma problemlerinde yaygın olarak kullanılır. Bu, özellikle görüntü işleme ve bilgisayarla görme alanında popülerdir.

4. Veri Madenciliği

K-NN, büyük veri kümeleri üzerinde benzer veri noktalarının gruplandığı veri madenciliği uygulamalarında da kullanılır. Özellikle müşteri segmentasyonu, öneri sistemleri ve kullanıcı davranış analizinde önemli bir rol oynar.

K-NN Algoritmasının Avantajları

Basit ve Kolay Uygulanabilir: K-NN algoritması, basitliği ve anlaşılabilirliği ile bilinir. Karmaşık matematiksel modellere dayanmaması, uygulamasını kolaylaştırır.
Parametrik Olmayan Yapı: K-NN, parametrik olmayan bir algoritmadır. Bu da veri dağılımı hakkında herhangi bir ön kabul yapılmasına gerek kalmadığı anlamına gelir.
Esneklik: Hem sınıflandırma hem de regresyon problemlerinde kullanılabilir.
Düşük Modelleme Zamanı: Eğitim aşaması olmadığı için modelleme süresi oldukça düşüktür. Model sadece tahmin yapılacağı sırada hesaplama yapar.

K-NN Algoritmasının Dezavantajları

Yüksek Hesaplama Maliyeti: K-NN, tüm veri setini saklar ve tahmin yapılacağı zaman her veri noktası ile uzaklık hesaplar. Bu da büyük veri setlerinde yavaş çalışmasına neden olabilir.
Veri Boyutuna Duyarlılık: Yüksek boyutlu verilerde (çok sayıda özelliğe sahip veriler) K-NN, uzaklık hesaplamasında zorluklar yaşar. Bu durumda boyut indirgeme yöntemleri kullanmak gerekebilir.
Kirlilik ve Aykırı Değer Duyarlılığı: Aykırı değerler ve gürültülü veriler, K-NN algoritmasının performansını olumsuz etkileyebilir.
K Değeri Seçimi: Yanlış $k$ değeri seçilmesi, algoritmanın başarısız olmasına neden olabilir. $k$ değeri çok küçükse, model fazla uyum sağlar (overfitting); çok büyükse, model yetersiz uyum sağlar (underfitting).

K Değeri Seçimi

K-NN algoritmasında $k$ değerinin seçimi kritik öneme sahiptir. Doğru $k$ değeri, algoritmanın performansını doğrudan etkiler. K değeri genellikle deneme yanılma yöntemi ile belirlenir, ancak genel kabul gören birkaç yöntem şunlardır:

Çapraz Doğrulama (Cross-Validation): Veri seti eğitim ve test olarak bölünür ve farklı $k$ değerleri denenerek, en iyi performansı veren $k$ değeri seçilir.
Elbow Yöntemi: Hataları grafiğe dökerek, en düşük hata veren noktadaki $k$ değeri seçilebilir.

K-NN Algoritmasında Performans Artırma Teknikleri

K-NN algoritması, büyük veri setlerinde yavaş çalışabilir ve bellek kullanımı açısından verimli olmayabilir. Performansı artırmak için şu yöntemler kullanılabilir:

Veri Normalizasyonu: Özelliklerin farklı ölçeklere sahip olduğu veri setlerinde, her bir özelliği aynı ölçeğe getirmek için normalizasyon yapılabilir.
Boyut İndirgeme: Yüksek boyutlu veri setlerinde, Principal Component Analysis (PCA) gibi boyut indirgeme yöntemleriyle veri boyutu azaltılarak K-NN’in performansı artırılabilir.
Veri Yapısı Kullanımı: K-NN algoritmasını hızlandırmak için KD-Tree veya Ball-Tree gibi veri yapıları kullanılabilir. Bu yapı, komşuları daha hızlı bulmayı sağlar.

Sonuç

K-Nearest Neighbors (K-NN) algoritması, makine öğrenimi ve veri analizi dünyasında etkili ve basit bir algoritmadır. Sınıflandırma ve regresyon problemlerinde kullanılan K-NN, parametrik olmayan yapısı, sezgisel işleyişi ve çok yönlü kullanımıyla öne çıkar. Yüksek hesaplama maliyeti ve $k$ değerinin dikkatlice seçilmesi gereken dezavantajlarına rağmen, doğru uygulandığında birçok farklı alanda başarılı sonuçlar elde etmek mümkündür.

Görüntülenme Sayısı: 782