Kerangka Materi

Pengenalan Model Multimodal Mistral

  • Tinjauan Mistral Medium dan kemampuan multimodal
  • Model OCR/dokumen dan kasus penggunaan
  • Integrasi dengan ekosistem open-source

Pipeline OCR dan Vision

  • Dasar-dasar OCR dengan model Mistral
  • Praproses gambar dan dokumen yang dipindai
  • Ekstraksi teks terstruktur dari gambar

Pemahaman Dokumen

  • Mendesain pipeline NLP untuk dokumen
  • Pengenalan entitas, ringkasan, dan klasifikasi
  • Pemetaan silang data teks dan vision

Aplikasi Pencarian dan Pengetahuan

  • Sistem pencarian vision-teks
  • Membangun pencarian semantik dengan output OCR
  • Repositori dokumen perusahaan

Aplikasi Bantuan dan Interaktif

  • Desain UI untuk asisten multimodal
  • Aplikasi aksesibilitas (misalnya, vision-to-text)
  • Alat produktivitas dunia nyata

Kinerja dan Optimasi

  • Menskala pipeline multimodal
  • Penyesuaian kinerja inferensi
  • Menevaluasi perbandingan akurasi dan efisiensi

Kasus Studi dan Arah Masyarakat

  • Aplikasi industri dari AI multimodal
  • Tren penelitian dalam OCR dan AI dokumen
  • Konsiderasi AI bertanggung jawab dalam tugas vision-teks

Ringkasan dan Langkah Selanjutnya

Persyaratan

  • Pahaman mengenai konsep pengolahan bahasa alami
  • Pengalaman dengan Python dan kerangka kerja ML
  • Kenalan dengan dasar dasar penglihatan komputer

Penonton

  • Tim produk
  • Peneliti ML
  • Insinyur ML terapan
 14 Jam

Jumlah Peserta


Biaya per Peserta

Kursus Mendatang

Kategori Terkait