Yapay Zekaya Giriş – Token Nedir

Token, Embedding ve Vektör Nedir? (Generative AI – LLM – RAG Temel Rehberi)

Yapay zekâ (AI); bilgisayarların insan benzeri düşünme, öğrenme ve üretme becerilerine sahip olmasını amaçlayan sistemler bütünüdür.
Son yıllarda özellikle Generative AI (Üretken Yapay Zekâ); metin, görsel, ses ve video üretebilen modeller sayesinde hayatımızın merkezine yerleşti.

Bu yazıda şu soruları sade bir dille cevaplıyoruz:

  • Token nedir?
  • Model nedir?
  • Embedding nedir?
  • Vektör nedir?
  • Generative AI nasıl çalışır?
  • LLM ne demektir?
  • RAG ve Vector Database neden önemlidir?

Token Nedir?

Token, yapay zekâ modelinin işlediği en küçük metin parçasıdır.

Bu parça:

  • bir harf olabilir
  • bir kelime olabilir
  • kelimenin bir kısmı olabilir
  • emoji veya noktalama işareti olabilir

👉 Önemli:
Model “kelime” değil, token düşünür.

✔ Örnek

Metin:

Merhaba dünya!

Model bunu şu şekilde görebilir:

["Mer", "haba", "dünya", "!"]

veya daha farklı:

["Merhaba", "dünya", "!"]

Neden önemli?

Fiyatlandırma ve model limiti token bazlı yapılır:

  • OpenAI
  • Gemini
  • Claude
  • Llama tabanlı sistemler

👉 Ne kadar çok token, o kadar çok maliyet.


❓ Neden tokenlara parçalıyoruz?

Tokenization’ın ana nedeni şudur:

👉 Kelimeler sonsuzdur, tokenlar sınırlıdır.

Dillerin özellikleri:

  • ekler var
  • çekimler var
  • çok uzun kelimeler var
  • her gün yeni kelimeler üretiliyor

Eğer model kelime bazlı çalışsaydı:

  • her kelime için ayrı kayıt tutması gerekirdi
  • kelime sayısı sonsuza yaklaşırdı
  • eğitim, depolama ve işlem maliyeti patlardı

✔ Türkçe’den net örnek

Aşağıdaki kelimeler aynı köktendir:

  • bilgisayar
  • bilgisayarcı
  • bilgisayarcılık
  • bilgisayarcılığımız
  • bilgisayarcılığımızdan

Kelime bazlı model olsaydı:

❌ hepsini ayrı ayrı ezberlemek zorunda kalırdı

Yapay zekânın yaptığı şey:

bilgi + sayar + cı + lık + ımız + dan

Böylece:

✔ sonsuz kelime üretilebilir
✔ yapı anlaşılır
✔ anlam ilişkisi korunur

👉 Bu parçalama işlemine tokenization denir.


Token → Embedding → Vektör Zinciri

Şimdi en kritik kısma gelelim:

  • token başka
  • embedding başka
  • vektör başka

Evet, üçü farklıdır.

Akış şu şekildedir:

Metin
↓ Tokenization
Token
↓ Embedding
Vektör

Embedding Nedir?

Embedding = metnin sayılara dönüştürülmesi işlemidir.

  • giriş: token veya cümle
  • çıkış: sayı dizisi (vektör)

Örnek:

"kedi"
→ embedding modeli
→ [0.12, -0.44, 0.98, 1.22, ...]

Bu sayı listesi:

  • tek sayı değildir
  • 384 / 768 / 1024 / 1536 boyutlu olabilir

👉 Bu sayı dizisine vektör denir.


Vektör Nedir?

Vektör = embedding sonucu oluşan sayısal temsildir.

Örneğin:

"kedi"  → [0.1, 0.8, -0.3, 0.5]
"köpek" → [0.09, 0.82, -0.28, 0.47]
"uçak"  → [5.2, -3.4, 7.9, 2.1]

Buradan:

  • kedi ↔ köpek → yakın
  • kedi ↔ uçak → uzak

Model bu uzayda:

  • anlam benzerliğini
  • ilişkiyi
  • bağlamı

hesaplar.


Basit benzetme

  • Token = Lego parçası
  • Kelime/cümle = Lego ile yapılan ev
  • Embedding = evin matematiksel planı
  • Vektör = plandaki sayılar

Model:

  • evi görmez
  • kelimeyi görmez
  • sayıları görür

Matematik yaparak anlam çıkarır.


🔥 Token – Embedding – Vektör Farkı (kısa tablo)

KavramTanımKullanım Alanı
TokenMetnin küçük parçasımodel girişi
TokenizationParçalama işlemieğitim ve çıkarım
EmbeddingMetni sayıya çevirme süreciarama, RAG, benzerlik
VektörSayı dizisivektör veritabanı

Çok kısa özet

  • model metni doğrudan anlayamaz
  • metin küçük parçalara bölünür → token
  • token sayılara dönüştürülür → embedding
  • oluşan sayı listesi → vektör
  • vektörler arası uzaklık → anlam benzerliği

👉 Bütün modern AI sistemlerinin temeli budur.


SSS – Sık Sorulan Sorular

❓ Token ve kelime aynı şey mi?

Hayır.
Kelime birden çok tokenden oluşabilir.

❓ Embedding olmadan semantic search olur mu?

Hayır, çünkü anlam benzerliği vektör uzayında hesaplanır.

❓ RAG neden vektör kullanır?

Çünkü:

  • dokümanları embedding’e dönüştürür
  • vektör veritabanında saklar
  • en yakın anlamlı parçayı bulur

Yorum gönder