Bu Modülde Neler Öğreneceksin?
RAGAS, LLM-as-judge, benchmark kurulumu, regression testi ve kalite güvencesi.
Konu Listesi
- LLM eval nedir
- Human eval vs automated eval
- LLM-as-a-judge pattern
- G-Eval framework
- RAGAS (RAG evaluation)
- TruLens
- Elytra / Braintrust
- Regression testing LLM apps için
- A/B testing prompt’lar
- Golden dataset oluşturma
- Benchmark vs production eval farkı
- Latency ölçümü
- TTFT (Time to First Token)
- Throughput ölçümü
- Hallucination detection
Başlamadan Önce
Bu modülün içeriğini tamamladıktan sonra ilgili araçları ve teknikleri kendi projelerinde uygulayabileceksin. Her konu için pratik örnekler ve kod snippetları yakında eklenecek.
İçerik hazırlanıyor mu? Bu sayfayı WordPress admin panelinden (AI Kurslar → Bu Kurs → Düzenle) istediğin gibi zenginleştirebilirsin.