Kerangka Materi

Ringkasan Teknologi Speech Recognition

  • Sejarah dan evolusi pengenalan ucapan
  • Model akustik, model bahasa, dan dekoding
  • Arsitektur modern: RNNs, transformers, dan Whisper

Pra-pemrosesan Audio dan Dasar-dasar Transkripsi

  • Menangani format audio dan tingkat sampel
  • Membersihkan, memotong, dan mengsegmentasi audio
  • Menghasilkan teks dari audio: real-time vs batch

Praktek dengan Whisper dan API Lainnya

  • Instalasi dan penggunaan OpenAI Whisper
  • Memanggil cloud APIs (Google, Azure) untuk transkripsi
  • Membandingkan kinerja, latensi, dan biaya

Bahasa, Aksen, dan Adaptasi Domain

  • Bekerja dengan beberapa bahasa dan aksen
  • Vokabular kustom dan toleransi terhadap kebisingan
  • Penanganan bahasa hukum, medis, atau teknikal

Pengolahan Keluaran dan Integrasi

  • Menambahkan timestamp, tanda baca, dan label pembicara
  • Mengekspor ke format teks, SRT, atau JSON
  • Mengintegrasikan transkripsi ke dalam aplikasi atau basis data

Use Case Lab Implementasi

  • Transkripsikan rapat, wawancara, atau podcast
  • Sistem komando suara-ke-teks
  • Subjudul real-time untuk stream video/audio

Evaluasi, Batasan, dan Etika

  • Metrik akurasi dan penilaian model
  • Bias dan keadilan dalam model ucapan
  • Pertimbangan privasi dan kesesuaian

Ringkasan dan Langkah Selanjutnya

Persyaratan

  • Memahami konsep umum tentang AI dan machine learning
  • Kesediaan bekerja dengan format dan alat file audio atau media

Audience

  • Ilmuwan data dan insinyur AI yang bekerja dengan data suara
  • Pengembang perangkat lunak yang membuat aplikasi berbasis transkripsi
  • Organisasi yang mengeksplorasi pengenalan ucapan untuk otomatisasi
 14 Jam

Jumlah Peserta


Biaya per Peserta

Upcoming Courses (Minimal 5 peserta)

Kategori Terkait