Kerangka Materi

Gambaran Umum Teknologi Pengenalan Suara

  • Sejarah dan evolusi pengenalan suara
  • Model akustik, model bahasa, dan dekoding
  • Arsitektur modern: RNNs, transformers, dan Whisper

Pra-pemrosesan Audio dan Dasar-dasar Transkripsi

  • Menangani format audio dan tingkat sampel
  • Membersihkan, memotong, dan membagi audio
  • Menghasilkan teks dari audio: real-time vs batch

Praktik dengan Whisper dan API Lainnya

  • Memasang dan menggunakan OpenAI Whisper
  • Menghubungi cloud APIs (Google, Azure) untuk transkripsi
  • Membandingkan kinerja, latensi, dan biaya

Bahasa, Akcent, dan Adaptasi Domain

  • Bekerja dengan beberapa bahasa dan akcent
  • Vokabulari kustom dan toleransi noise
  • Penanganan bahasa hukum, medis, atau teknis

Pemformatan Output dan Integrasi

  • Menambahkan timestamp, tanda baca, dan label pembicara
  • Mengekspor ke format teks, SRT, atau JSON
  • Mengintegrasikan transkripsi ke dalam aplikasi atau basis data

Implementasi Kasus Penggunaan Laboratorium

  • Transkripsi rapat, wawancara, atau podcast
  • Sistem perintah voice-to-text
  • Subtitle real-time untuk stream video/audio

Evaluasi, Keterbatasan, dan Etika

  • Metrik akurasi dan benchmarking model
  • Bias dan keadilan dalam model suara
  • Pertimbangan privasi dan kepatuhan hukum

Ringkasan dan Langkah Selanjutnya

Persyaratan

  • Pemahaman tentang konsep AI dan pembelajaran mesin secara umum
  • Kenalan dengan format file audio atau media dan alatnya

Audience

  • Para ilmuwan data dan insinyur AI yang bekerja dengan data suara
  • Pengembang perangkat lunak yang membangun aplikasi berbasis transkripsi
  • Organisasi yang mengeksplorasi pengenalan suara untuk otomatisasi
 14 Jam

Jumlah Peserta


Harga per Peserta

Kursus Mendatang

Kategori Terkait