Yapay Zekaya Giriş – Vektör Uzaklıkları ve Benzerlik Metrikleri

Giriş: Makine Öğrenmesinde “Uzaklık” Kavramı

Makine öğrenmesi ve veri bilimi dünyasında, ölçüm yapmak için gerçek hayattaki cetvellere benzemeyen ama çok daha güçlü araçlar kullanırız. Tıpkı kuş uçuşu mesafesi gibi, veri noktaları arasındaki “uzaklığı” ölçmenin farklı yolları vardır. Bu yazıda, en temel ve kullanışlı üç benzerlik metriğini (Cosine, Dot-Product ve L2) basit bir dille açıklayacağız.

1. Cosine Benzerliği (Cosine Similarity)

Nedir?

Cosine benzerliği, iki vektör arasındaki açıyı ölçer. Büyüklüklere değil, yönlere bakar.

Nasıl Çalışır?

  • İki vektör tam aynı yöndeyse: Benzerlik = 1
  • Birbirine diklerse: Benzerlik = 0
  • Tam zıt yönlere bakıyorsa: Benzerlik = -1

Gerçek Hayat Örneği:

İki makale düşünün. Cosine benzerliği, bu makalelerin konularının ne kadar benzer olduğuna bakar, makalelerin uzunluğuna (kelime sayısına) değil.

Kullanım Alanları:

  • Belge benzerliği
  • Öneri sistemleri
  • Metin analizi

2. Nokta Çarpımı (Dot-Product)

Nedir?

Nokta çarpımı hem yön hem de büyüklük dikkate alır.

Özellikleri:

  • İki vektörün aynı yönde olması ve büyük olması durumunda yüksek değer verir
  • Sıfır vektörler arasında sıfır sonuç verir
  • Ölçeklenebilir bir metriktir

Önemli Not:

Nokta çarpımı, vektörlerin büyüklüklerinden etkilenir. Bu nedenle büyüklüklerin önemli olduğu durumlarda kullanışlıdır.

Kullanım Alanları:

  • Sinir ağlarında
  • Matris çarpımlarında
  • Fiziksel sistem modellemede

3. L2 (Öklid) Uzaklığı

Nedir?

L2 uzaklığı, bildiğimiz klasik “iki nokta arasındaki mesafe” kavramının vektörler dünyasındaki karşılığıdır.

Nasıl Hesaplanır?

Pisagor teoreminin çok boyutlu halidir. İki nokta arasındaki düz çizgi mesafesini verir (kuş uçuşu mesafe).

Özellikleri:

  • Her iki vektörün koordinatları arasındaki farkların karelerinin toplamının karekökü
  • 0 ile ∞ arasında değer alır
  • Gerçek fiziksel uzaklık hissini verir

Kullanım Alanları:

  • Kümeleme algoritmaları (K-Means)
  • Görüntü işleme
  • Konumsal veri analizi

Karşılaştırma Tablosu

MetrikNe Ölçer?Değer AralığıBüyüklük Duyarlı mı?
CosineYön benzerliği[-1, 1]Hayır
Dot-ProductYön + Büyüklük(-∞, ∞)Evet
L2Mutlak uzaklık[0, ∞)Evet

Hangi Metrik Ne Zaman Kullanılmalı?

Cosine Benzerliği Kullanın:

  • Sadece içerik/yön önemliyse
  • Belge benzerliği ölçüyorsanız
  • Vektör büyüklükleri farklı olsa da yön önemliyse

Dot-Product Kullanın:

  • Hem yön hem şiddet önemliyse
  • Hızlı hesaplama gerekiyorsa
  • Sinir ağı uygulamalarında

L2 Uzaklığı Kullanın:

  • Gerçek mesafe ölçümü yapıyorsanız
  • Kümeleme algoritmalarında
  • Fiziksel sistemleri modelliyorsanız

Pratik İpucu: Normalizasyon

Vektörleri normalize ederseniz (birim vektör haline getirirseniz):

  • Cosine ve Dot-Product aynı sonucu verir
  • Dot-Product = Cosine Benzerliği olur

Bu, birçok makine öğrenmesi uygulamasında işinizi kolaylaştırabilir!


Sonuç

Her benzerlik metriğinin kendine özgü güçlü yanları var. Doğru metriği seçmek, probleminizin doğasına bağlı. Cosine yön odaklı, Dot-Product hem yön hem şiddet odaklı, L2 ise gerçek mesafe odaklıdır. Bu üçlüyü doğru anlamak ve uygulamak, makine öğrenmesi yolculuğunuzda size önemli bir avantaj sağlayacaktır.

Unutmayın: Veri biliminde “en iyi” metrik yoktur, “en uygun” metrik vardır. Probleminizi iyi anlayın, verinizi tanıyın ve ona göre karar verin.

Yorum gönder