Terima kasih telah mengirimkan pertanyaan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Terima kasih telah mengirimkan pemesanan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Kerangka Materi
Pendahuluan Multimodal AI dan Ollama
- Ringkasan pembelajaran multimodal
- Tantangan utama dalam integrasi visi-bahasa
- Kapasitas dan arsitektur Ollama
Mempersiapkan Lingkungan Ollama
- Memasang dan mengkonfigurasi Ollama
- Bekerja dengan peluncuran model lokal
- Mengintegrasikan Ollama dengan Python dan Jupyter
Bekerja dengan Input Multimodal
- Integrasi teks dan gambar
- Mengintegrasikan audio dan data terstruktur
- Mendesain pipa proressing
Aplikasi Pemahaman Dokumen
- Mengambil informasi terstruktur dari PDF dan gambar
- Menggabungkan OCR dengan model bahasa
- Membangun workflow analisis dokumen pintar
Visual Question Answering (VQA)
- Mempersiapkan dataset dan benchmark VQA
- Melatih dan mengevaluasi model multimodal
- Membangun aplikasi VQA interaktif
Mendesain Agen Multimodal
- Prinsip desain agen dengan alasan multimodal
- Menggabungkan percepsi, bahasa, dan tindakan
- Menemukan agen untuk kasus penggunaan dunia nyata
Integrasi dan Optimasi Lanjut
- Menyesuaikan model multimodal dengan Ollama
- Meningkatkan kinerja inferensi
- Pertimbangan skalabilitas dan peluncuran
Ringkasan dan Langkah Selanjutnya
Persyaratan
- Memahami konsep machine learning secara mendalam
- Pengalaman dengan kerangka kerja deep learning seperti PyTorch atau TensorFlow
- Kenalan dengan pemrosesan bahasa alami dan komputer vision
Audience
- Engineer machine learning
- Peneliti AI
- Pengembang produk yang mengintegrasikan alur kerja visual dan teks
21 Jam