Yapay Zekaya Giriş – Token Nedir
Token, Embedding ve Vektör Nedir? (Generative AI – LLM – RAG Temel Rehberi)
Yapay zekâ (AI); bilgisayarların insan benzeri düşünme, öğrenme ve üretme becerilerine sahip olmasını amaçlayan sistemler bütünüdür.
Son yıllarda özellikle Generative AI (Üretken Yapay Zekâ); metin, görsel, ses ve video üretebilen modeller sayesinde hayatımızın merkezine yerleşti.
Bu yazıda şu soruları sade bir dille cevaplıyoruz:
- Token nedir?
- Model nedir?
- Embedding nedir?
- Vektör nedir?
- Generative AI nasıl çalışır?
- LLM ne demektir?
- RAG ve Vector Database neden önemlidir?
Token Nedir?
Token, yapay zekâ modelinin işlediği en küçük metin parçasıdır.
Bu parça:
- bir harf olabilir
- bir kelime olabilir
- kelimenin bir kısmı olabilir
- emoji veya noktalama işareti olabilir
👉 Önemli:
Model “kelime” değil, token düşünür.
✔ Örnek
Metin:
Merhaba dünya!
Model bunu şu şekilde görebilir:
["Mer", "haba", "dünya", "!"]
veya daha farklı:
["Merhaba", "dünya", "!"]
Neden önemli?
Fiyatlandırma ve model limiti token bazlı yapılır:
- OpenAI
- Gemini
- Claude
- Llama tabanlı sistemler
👉 Ne kadar çok token, o kadar çok maliyet.
❓ Neden tokenlara parçalıyoruz?
Tokenization’ın ana nedeni şudur:
👉 Kelimeler sonsuzdur, tokenlar sınırlıdır.
Dillerin özellikleri:
- ekler var
- çekimler var
- çok uzun kelimeler var
- her gün yeni kelimeler üretiliyor
Eğer model kelime bazlı çalışsaydı:
- her kelime için ayrı kayıt tutması gerekirdi
- kelime sayısı sonsuza yaklaşırdı
- eğitim, depolama ve işlem maliyeti patlardı
✔ Türkçe’den net örnek
Aşağıdaki kelimeler aynı köktendir:
- bilgisayar
- bilgisayarcı
- bilgisayarcılık
- bilgisayarcılığımız
- bilgisayarcılığımızdan
Kelime bazlı model olsaydı:
❌ hepsini ayrı ayrı ezberlemek zorunda kalırdı
Yapay zekânın yaptığı şey:
bilgi + sayar + cı + lık + ımız + dan
Böylece:
✔ sonsuz kelime üretilebilir
✔ yapı anlaşılır
✔ anlam ilişkisi korunur
👉 Bu parçalama işlemine tokenization denir.
Token → Embedding → Vektör Zinciri
Şimdi en kritik kısma gelelim:
- token başka
- embedding başka
- vektör başka
Evet, üçü farklıdır.
Akış şu şekildedir:
Metin
↓ Tokenization
Token
↓ Embedding
Vektör
Embedding Nedir?
Embedding = metnin sayılara dönüştürülmesi işlemidir.
- giriş: token veya cümle
- çıkış: sayı dizisi (vektör)
Örnek:
"kedi"
→ embedding modeli
→ [0.12, -0.44, 0.98, 1.22, ...]
Bu sayı listesi:
- tek sayı değildir
- 384 / 768 / 1024 / 1536 boyutlu olabilir
👉 Bu sayı dizisine vektör denir.
Vektör Nedir?
Vektör = embedding sonucu oluşan sayısal temsildir.
Örneğin:
"kedi" → [0.1, 0.8, -0.3, 0.5]
"köpek" → [0.09, 0.82, -0.28, 0.47]
"uçak" → [5.2, -3.4, 7.9, 2.1]
Buradan:
- kedi ↔ köpek → yakın
- kedi ↔ uçak → uzak
Model bu uzayda:
- anlam benzerliğini
- ilişkiyi
- bağlamı
hesaplar.
Basit benzetme
- Token = Lego parçası
- Kelime/cümle = Lego ile yapılan ev
- Embedding = evin matematiksel planı
- Vektör = plandaki sayılar
Model:
- evi görmez
- kelimeyi görmez
- sayıları görür
Matematik yaparak anlam çıkarır.
🔥 Token – Embedding – Vektör Farkı (kısa tablo)
| Kavram | Tanım | Kullanım Alanı |
|---|---|---|
| Token | Metnin küçük parçası | model girişi |
| Tokenization | Parçalama işlemi | eğitim ve çıkarım |
| Embedding | Metni sayıya çevirme süreci | arama, RAG, benzerlik |
| Vektör | Sayı dizisi | vektör veritabanı |
Çok kısa özet
- model metni doğrudan anlayamaz
- metin küçük parçalara bölünür → token
- token sayılara dönüştürülür → embedding
- oluşan sayı listesi → vektör
- vektörler arası uzaklık → anlam benzerliği
👉 Bütün modern AI sistemlerinin temeli budur.
SSS – Sık Sorulan Sorular
❓ Token ve kelime aynı şey mi?
Hayır.
Kelime birden çok tokenden oluşabilir.
❓ Embedding olmadan semantic search olur mu?
Hayır, çünkü anlam benzerliği vektör uzayında hesaplanır.
❓ RAG neden vektör kullanır?
Çünkü:
- dokümanları embedding’e dönüştürür
- vektör veritabanında saklar
- en yakın anlamlı parçayı bulur
Yorum gönder