Terima kasih telah mengirimkan pertanyaan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Terima kasih telah mengirimkan pemesanan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Kerangka Materi
Pengantar Multimodalitas Gemini 3
- Kemampuan di teks, gambar, audio, dan video
- Pemilihan model dan overview endpoint
- Konsep utama dalam penalaran multimodal
Bekerja dengan Teks dan Input Berstruktur
- Strategi prompt untuk pembangkitan teks
- Metadata, jendela konteks, dan embeddings
- Orkestrasi tugas multimodal berbasis teks
Pemahaman Gambar dan Alur Kerja Visual
- Analisis dan interpretasi gambar dengan Gemini 3
- Membuat alat pencarian visual dan penandaan
- Membangun interaksi image-to-text dan text-to-image
Pengolahan Input Audio
- Alur kerja pengenalan suara dan transkripsi
- Deteksi dan interpretasi peristiwa audio
- Mengintegrasikan audio dengan teks dan input visual
Kecerdasan Video dan Analisis Adegan
- Penalaran video berbasis frame-by-frame dan kontinu
- Membangun alat ringkasan dan ekstraksi poin penting
- Otomatisasi berbasis video dan alur kerja konten
Merancang Arsitektur Aplikasi Multimodal
- Menggabungkan berbagai jenis input dalam satu pipa kerja
- Pertimbangan latensi, biaya, dan komputasi
- Praktik terbaik untuk sistem multimodal yang skalabel
Prototyping Aplikasi Multimodal
- Pembuatan prototipe multimodal secara langsung
- Iterasi cepat dengan prompt engineering
- Pengujian dan penyempurnaan alur pengalaman pengguna
Menjalankan Solusi Multimodal
- Strategi penyebaran dan setup lingkungan
- Memantau kinerja dunia nyata
- Pertimbangan keamanan dan kepatuhan
Ringkasan dan Langkah Selanjutnya
Persyaratan
- Pemahaman tentang konsep AI modern
- Pengalaman dengan Python atau JavaScript
- Kenalan dengan REST APIs
Audience
- Desainer
- Pencipta konten
- Tim produk teknis
14 Jam
Testimoni (1)
Alur, suasana dan topik pada presentasi
Lukasz Kowalczyk - Allegro Sp. z o.o.
Kursus - Google Gemini AI for Data Analysis
Diterjemahkan Mesin