Course Outline

Pengantar AI Multi-Modal

  • Apa itu AI multi-modal?
  • Tantangan dan aplikasi utama
  • Tinjauan umum model multi-moda terkemuka

Pemrosesan Teks dan Pemahaman Bahasa Alami

  • Memanfaatkan LLM untuk agen AI berbasis teks
  • Memahami rekayasa cepat untuk tugas multi-moda
  • Menyempurnakan model teks untuk aplikasi khusus domain

Pengenalan dan Pembuatan Gambar

  • Memproses gambar dengan AI: klasifikasi, pemberian teks, dan deteksi objek
  • Menghasilkan gambar dengan model difusi (Stable Diffusion, DALLE)
  • Mengintegrasikan data gambar dengan model berbasis teks

Pemrosesan Ucapan dan Audio

  • Pengenalan ucapan dengan Whisper ASR
  • Teknik sintesis teks ke ucapan (TTS)
  • Meningkatkan interaksi pengguna dengan AI berbasis suara

Mengintegrasikan Input Multi-Modal

  • Membangun jalur AI untuk memproses berbagai jenis input
  • Teknik fusi untuk menggabungkan data teks, gambar, dan ucapan
  • Aplikasi nyata agen AI multi-modal

Menerapkan Multi-Modal AI Agents

  • Membangun solusi AI multi-modal berbasis API
  • Mengoptimalkan model untuk kinerja dan skalabilitas
  • Praktik terbaik untuk menerapkan AI multi-moda dalam produksi

Pertimbangan Etis dan Tren Masa Depan

  • Bias dan keadilan dalam AI multi-modal
  • Kekhawatiran privasi dengan data multi-modal
  • Perkembangan masa depan dalam AI multi-modal

Ringkasan dan Langkah Berikutnya

Requirements

  • Pemahaman tentang dasar-dasar pembelajaran mesin
  • Pengalaman dengan pemrograman Python
  • Keakraban dengan kerangka kerja pembelajaran mendalam (misalnya, TensorFlow, PyTorch)

Hadirin

  • pengembang AI
  • Peneliti
  • Insinyur multimedia
 21 Hours

Number of participants


Price per participant

Upcoming Courses (Minimal 5 peserta)

Related Categories