Bu Modülde Neler Öğreneceksin?
Vision-language modeller, görüntü-metin entegrasyonu, ses, video ve multimodal pipeline’lar.
Konu Listesi
- Vision-language modeller (GPT-4o, Claude, Gemini)
- Image understanding use case’leri
- OCR + LLM kombinasyonu
- Document parsing (PDF, tablo, grafik)
- Audio → text (Whisper)
- Text → audio (TTS)
- Text → image (DALL-E, Midjourney, Flux)
- Video understanding
- Multimodal RAG
- Image embedding
- Vision fine-tuning
Başlamadan Önce
Bu modülün içeriğini tamamladıktan sonra ilgili araçları ve teknikleri kendi projelerinde uygulayabileceksin. Her konu için pratik örnekler ve kod snippetları yakında eklenecek.
İçerik hazırlanıyor mu? Bu sayfayı WordPress admin panelinden (AI Kurslar → Bu Kurs → Düzenle) istediğin gibi zenginleştirebilirsin.