Kerangka Materi

Pembahasan Dasar AI Multi-Modal

  • Apakah AI Multi-Modal?
  • Tantangan dan aplikasi utama
  • Tinjauan tentang model AI Multi-Modal terkemuka

Pemrosesan Teks dan Pengertian Bahasa Alami

  • Memanfaatkan LLM untuk agen AI berbasis teks
  • Memahami teknik *prompt engineering* untuk tugas multi-modal
  • Memperbaiki model teks untuk aplikasi tertentu

Pengenalan dan Generasi Gambar

  • Memproses gambar dengan AI: klasifikasi, pembuatan keterangan, dan pengenalan objek
  • Menggenerasi gambar dengan model *diffusion* (Stable Diffusion, DALLE)
  • Mengintegrasikan data gambar dengan model berbasis teks

Pemrosesan Suara dan Audio

  • Pengenalan suara dengan Whisper ASR
  • Teknik sintesis suara ke teks (TTS)
  • Memperbaiki interaksi pengguna dengan AI berbasis suara

Mengintegrasikan Masukan Multi-Modal

  • Membangun pipa AI untuk memproses berbagai jenis masukan
  • Teknik *fusion* untuk mengkombinasikan data teks, gambar, dan suara
  • Aplikasi praktis dari agen AI multi-modal

Mengimplementasikan Agen AI Multi-Modal

  • Membangun solusi AI multi-modal yang didukung oleh API
  • Memperbaiki model untuk kinerja dan kelaikan
  • Pratik praktis untuk mengimplementasikan AI multi-modal dalam produksi

Pertimbangan Etika dan Tren Masa Depan

  • Bias dan keadilan dalam AI multi-modal
  • Masalah privasi dengan data multi-modal
  • Pengembangan masa depan dalam AI multi-modal

Ringkasan dan Langkah Selanjutnya

Persyaratan

  • Pemahaman dasar machine learning
  • Pengalaman dalam pemrograman Python
  • Kenalan dengan framework deep learning (misalnya TensorFlow, PyTorch)

Penonton

  • Pengembang AI
  • Peneliti
  • Insinyur multimedia
 21 Jam

Jumlah Peserta


Biaya per Peserta

Testimoni (1)

Kursus Mendatang

Kategori Terkait