Terima kasih telah mengirimkan pertanyaan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Terima kasih telah mengirimkan pemesanan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Kerangka Materi
Ringkasan Teknologi Speech Recognition
- Sejarah dan evolusi pengenalan ucapan
- Model akustik, model bahasa, dan dekoding
- Arsitektur modern: RNNs, transformers, dan Whisper
Pra-pemrosesan Audio dan Dasar-dasar Transkripsi
- Menangani format audio dan tingkat sampel
- Membersihkan, memotong, dan mengsegmentasi audio
- Menghasilkan teks dari audio: real-time vs batch
Praktek dengan Whisper dan API Lainnya
- Instalasi dan penggunaan OpenAI Whisper
- Memanggil cloud APIs (Google, Azure) untuk transkripsi
- Membandingkan kinerja, latensi, dan biaya
Bahasa, Aksen, dan Adaptasi Domain
- Bekerja dengan beberapa bahasa dan aksen
- Vokabular kustom dan toleransi terhadap kebisingan
- Penanganan bahasa hukum, medis, atau teknikal
Pengolahan Keluaran dan Integrasi
- Menambahkan timestamp, tanda baca, dan label pembicara
- Mengekspor ke format teks, SRT, atau JSON
- Mengintegrasikan transkripsi ke dalam aplikasi atau basis data
Use Case Lab Implementasi
- Transkripsikan rapat, wawancara, atau podcast
- Sistem komando suara-ke-teks
- Subjudul real-time untuk stream video/audio
Evaluasi, Batasan, dan Etika
- Metrik akurasi dan penilaian model
- Bias dan keadilan dalam model ucapan
- Pertimbangan privasi dan kesesuaian
Ringkasan dan Langkah Selanjutnya
Persyaratan
- Memahami konsep umum tentang AI dan machine learning
- Kesediaan bekerja dengan format dan alat file audio atau media
Audience
- Ilmuwan data dan insinyur AI yang bekerja dengan data suara
- Pengembang perangkat lunak yang membuat aplikasi berbasis transkripsi
- Organisasi yang mengeksplorasi pengenalan ucapan untuk otomatisasi
14 Jam