← AI Eğitim / Modül 12
🖼️

Multimodal AI

MODAL

Vision-language modeller, görüntü-metin entegrasyonu, ses, video ve multimodal pipeline’lar.

📋 Konu Listesi

Konu Listesi

  • Vision-language modeller (GPT-4o, Claude, Gemini)
  • Image understanding use case’leri
  • OCR + LLM kombinasyonu
  • Document parsing (PDF, tablo, grafik)
  • Audio → text (Whisper)
  • Text → audio (TTS)
  • Text → image (DALL-E, Midjourney, Flux)
  • Video understanding
  • Multimodal RAG
  • Image embedding
  • Vision fine-tuning

AI Kariyerine Bugün Başla

15 modül, yüzlerce ders ve Türkiye'nin en aktif AI topluluğu seni bekliyor.