Kerangka Materi

Pendahuluan Multimodal AI dan Ollama

  • Ringkasan pembelajaran multimodal
  • Tantangan utama dalam integrasi visi-bahasa
  • Kapasitas dan arsitektur Ollama

Mempersiapkan Lingkungan Ollama

  • Memasang dan mengkonfigurasi Ollama
  • Bekerja dengan peluncuran model lokal
  • Mengintegrasikan Ollama dengan Python dan Jupyter

Bekerja dengan Input Multimodal

  • Integrasi teks dan gambar
  • Mengintegrasikan audio dan data terstruktur
  • Mendesain pipa proressing

Aplikasi Pemahaman Dokumen

  • Mengambil informasi terstruktur dari PDF dan gambar
  • Menggabungkan OCR dengan model bahasa
  • Membangun workflow analisis dokumen pintar

Visual Question Answering (VQA)

  • Mempersiapkan dataset dan benchmark VQA
  • Melatih dan mengevaluasi model multimodal
  • Membangun aplikasi VQA interaktif

Mendesain Agen Multimodal

  • Prinsip desain agen dengan alasan multimodal
  • Menggabungkan percepsi, bahasa, dan tindakan
  • Menemukan agen untuk kasus penggunaan dunia nyata

Integrasi dan Optimasi Lanjut

  • Menyesuaikan model multimodal dengan Ollama
  • Meningkatkan kinerja inferensi
  • Pertimbangan skalabilitas dan peluncuran

Ringkasan dan Langkah Selanjutnya

Persyaratan

  • Memahami konsep machine learning secara mendalam
  • Pengalaman dengan kerangka kerja deep learning seperti PyTorch atau TensorFlow
  • Kenalan dengan pemrosesan bahasa alami dan komputer vision

Audience

  • Engineer machine learning
  • Peneliti AI
  • Pengembang produk yang mengintegrasikan alur kerja visual dan teks
 21 Jam

Jumlah Peserta


Biaya per Peserta

Kursus Mendatang

Kategori Terkait