Kerangka Materi

Pengantar Multimodalitas Gemini 3

  • Kemampuan di teks, gambar, audio, dan video
  • Pemilihan model dan overview endpoint
  • Konsep utama dalam penalaran multimodal

Bekerja dengan Teks dan Input Berstruktur

  • Strategi prompt untuk pembangkitan teks
  • Metadata, jendela konteks, dan embeddings
  • Orkestrasi tugas multimodal berbasis teks

Pemahaman Gambar dan Alur Kerja Visual

  • Analisis dan interpretasi gambar dengan Gemini 3
  • Membuat alat pencarian visual dan penandaan
  • Membangun interaksi image-to-text dan text-to-image

Pengolahan Input Audio

  • Alur kerja pengenalan suara dan transkripsi
  • Deteksi dan interpretasi peristiwa audio
  • Mengintegrasikan audio dengan teks dan input visual

Kecerdasan Video dan Analisis Adegan

  • Penalaran video berbasis frame-by-frame dan kontinu
  • Membangun alat ringkasan dan ekstraksi poin penting
  • Otomatisasi berbasis video dan alur kerja konten

Merancang Arsitektur Aplikasi Multimodal

  • Menggabungkan berbagai jenis input dalam satu pipa kerja
  • Pertimbangan latensi, biaya, dan komputasi
  • Praktik terbaik untuk sistem multimodal yang skalabel

Prototyping Aplikasi Multimodal

  • Pembuatan prototipe multimodal secara langsung
  • Iterasi cepat dengan prompt engineering
  • Pengujian dan penyempurnaan alur pengalaman pengguna

Menjalankan Solusi Multimodal

  • Strategi penyebaran dan setup lingkungan
  • Memantau kinerja dunia nyata
  • Pertimbangan keamanan dan kepatuhan

Ringkasan dan Langkah Selanjutnya

Persyaratan

  • Pemahaman tentang konsep AI modern
  • Pengalaman dengan Python atau JavaScript
  • Kenalan dengan REST APIs

Audience

  • Desainer
  • Pencipta konten
  • Tim produk teknis
 14 Jam

Jumlah Peserta


Biaya per Peserta

Testimoni (1)

Kursus Mendatang

Kategori Terkait