← AI Eğitim / Modül 12
🖼️

Multimodal AI

MODAL

Vision-language modeller, görüntü-metin entegrasyonu, ses, video ve multimodal pipeline’lar.

📋 Konu Listesi

Bu Modülde Neler Öğreneceksin?

Vision-language modeller, görüntü-metin entegrasyonu, ses, video ve multimodal pipeline’lar.

Konu Listesi

  • Vision-language modeller (GPT-4o, Claude, Gemini)
  • Image understanding use case’leri
  • OCR + LLM kombinasyonu
  • Document parsing (PDF, tablo, grafik)
  • Audio → text (Whisper)
  • Text → audio (TTS)
  • Text → image (DALL-E, Midjourney, Flux)
  • Video understanding
  • Multimodal RAG
  • Image embedding
  • Vision fine-tuning

Başlamadan Önce

Bu modülün içeriğini tamamladıktan sonra ilgili araçları ve teknikleri kendi projelerinde uygulayabileceksin. Her konu için pratik örnekler ve kod snippetları yakında eklenecek.

İçerik hazırlanıyor mu? Bu sayfayı WordPress admin panelinden (AI Kurslar → Bu Kurs → Düzenle) istediğin gibi zenginleştirebilirsin.

AI Kariyerine Bugün Başla

15 modül, yüzlerce ders ve Türkiye'nin en aktif AI topluluğu seni bekliyor.