Kerangka Materi

Pengenalan ke Model Bahasa-Visi

  • Ikhtisar VLMs dan perannya dalam AI multimodal
  • Arsitektur populer: CLIP, Flamingo, BLIP, dll.
  • Kasus penggunaan: pencarian, captioning, sistem otonom, analisis konten

Menyiapkan Lingkungan Pemajuan

  • Pengaturan OpenCLIP dan pustaka VLM lainnya
  • Format dataset untuk pasangan gambar-teks
  • Pipa preprocessing untuk input visi dan bahasa

Pemajuan CLIP dan Model Serupa

  • Kerugian kontras dan ruang penyisipan bersama
  • Praktik langsung: pemajuan CLIP pada dataset kustom
  • Penanganan data spesifik domain dan multibahasa

Teknik Pemajuan Lanjutan

  • Penggunaan LoRA dan metode berbasis adapter untuk efisiensi
  • Pemajuan prompt dan penyisipan visual prompt
  • Perbandingan evaluasi zero-shot vs. pemajuan

Evaluasi dan Benchmarking

  • Metrik untuk VLMs: akurasi pencarian, BLEU, CIDEr, recall
  • Diagnostik penjajaran visual-teks
  • Visualisasi ruang penyisipan dan kesalahan klasifikasi

Penempatan dan Penggunaan dalam Aplikasi Nyata

  • Ekspor model untuk inferensi (TorchScript, ONNX)
  • Integrasi VLMs ke dalam pipa atau API
  • Konsiderasi sumber daya dan penskalaan model

Kajian Kasus dan Skenario Terapan

  • Analis media dan moderasi konten
  • Pencarian dan pencarian dalam e-commerce dan perpustakaan digital
  • Interaksi multimodal dalam robotika dan sistem otonom

Rangkuman dan Langkah Selanjutnya

Persyaratan

  • Pemahaman tentang pembelajaran dalam jaringan (deep learning) untuk visi dan NLP
  • Pengalaman dengan PyTorch dan model berbasis transformer
  • Kenalan dengan arsitektur model multimodal

Audience

  • Insinyur visi komputer
  • Pengembang AI
 14 Jam

Jumlah Peserta


Biaya per Peserta

Kursus Mendatang

Kategori Terkait