Yapay Zekaya Giriş – Tokenization Türleri

Tokenizasyon Türleri: BPE, WordPiece, Unigram

Tokenizasyon, doğal dil işlemenin (NLP) temel taşlarından biridir. Metinleri daha küçük parçalara ayırarak makine öğrenimi modellerinin dil yapılarını anlamasına yardımcı olur. Bu yazıda, en popüler tokenizasyon tekniklerini (BPE, WordPiece, Unigram) sade ve anlaşılır bir şekilde açıklayacağız.

Tokenizasyon Nedir?

Tokenizasyon, uzun metin dizilerini daha küçük, anlamlı parçalara (token’lara) bölme işlemidir. Kelimeleri harflere, hecelere veya tam kelimelere ayırabilir. Bu işlem, dil modellerinin metni daha iyi işlemesini sağlar.

1. BPE – Parça Birleştirme Yöntemi (LEGO gibi)

  • Nasıl çalışır? Bütün yazıyı tek tek harflere ayır, sonra en çok yan yana gelen harfleri birleştir.
  • Örnek: “araba” → “a” “r” “a” “b” “a” (başlangıç)
    Sonra: “ar” “a” “b” “a” (en çok “a” ve “r” yanyana)
    Sonra: “ara” “b” “a” (devam eder)
  • Kim kullanır? ChatGPT gibi modeller
  • Basit benzetme: LEGO parçalarını birleştirerek büyük parçalar yapmak gibi

2. WordPiece – Google’ın Yöntemi (Akıllı Birleştirme)

  • BPE’den farkı: Sadece “çok geçenleri” değil, “anlamlı olanları” birleştiriyor
  • Örnek: “gidiyorum” → “git” (kök) + “##iyor” (ek) + “##um” (ek)
  • Kim kullanır? Google Translate, BERT
  • Basit benzetme: Puzzle yapmak gibi – doğru parçaları birleştiriyor

3. Unigram – Liste Yöntemi (Hazır Parçalar)

  • Nasıl çalışır? Önceden hazır bir parça listesi var. Yazıyı bu listedeki parçalarla bölüyor.
  • Örnek: Listende “merhaba”, “nasıl”, “sin” varsa:
    “merhaba nasılsın” → “merhaba” + “nasıl” + “sin”
  • Avantajı: Her dil için özel liste hazırlayabilirsin
  • Basit benzetme: Mutfakta hazır doğranmış malzemeler kullanmak gibi

🎯 Hangisini Seçeceksin?

DurumHangisi?Nedeni?
Yeni başlıyorsanBPEEn kolay, her dilde çalışır
Türkçe içinWordPieceEkleri ( -yor, -miş) daha iyi ayırır
Özel karakterlerin varsaUnigramKendi listeni hazırlayabilirsin

🤔 Neden Önemli?

  1. Bilgisayar anlasın diye → Yazıyı parçalara ayırmazsan, bilgisayar anlayamaz
  2. Hız için → Küçük parçalar daha hızlı işlenir
  3. Hafıza için → Her kelimeyi değil, parçaları saklar, yer kazanır

💡 Pratik Örnek:

“Bugün okula gitmedim” cümlesi:

  • BPE: “Bug” “##ün” “okul” “##a” “git” “##medim”
  • WordPiece: “Bugün” “okul” “##a” “git” “##me” “##dim”
  • Unigram: “Bugün” “okula” “gitmedim” (listene bağlı)

✨ Özet:

Unigram = Hazır listenle böl

BPE = Harfleri birleştirerek ilerle

WordPiece = Anlamlı parçaları birleştir

Yorum gönder