Terima kasih telah mengirimkan pertanyaan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Terima kasih telah mengirimkan pemesanan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Kerangka Materi
Pengenalan ke Sintesis Suara dan Penclonan Suara
- Gambaran umum tentang text-to-speech (TTS) dan sintesis suara neural
- Penclonan suara vs pembuatan ucapan: kasus penggunaan dan batasan
- Model utama: Tacotron, WaveNet, FastSpeech, VITS
Bekerja dengan Platform Komersial
- Menggunakan ElevenLabs dan Resemble AI
- Pembuatan, penclonan, dan pengeditan suara
- Akses API dan alur kerja text-to-speech
Membangun dengan Alat Open-Source
- Menginstal dan mengonfigurasi Coqui TTS
- Melatih suara kustom dan mengelola dataset
- Membangkitkan ucapan dengan kontrol halus (pitch, kecepatan, emosi)
Persiapan Data dan Pengelolaan Dataset Suara
- Mengumpulkan dan membersihkan sampel suara
- Menyegmen, melabeli, dan menyelaraskan transkrip
- Pembebasan etis dan persetujuan suara
Integrasi Aplikasi
- Memasukkan TTS ke dalam situs web dan aplikasi
- Membuat sistem IVR dan bot interaktif
- Menghasilkan dialog sintetis untuk video dan game
Menilai Kualitas dan Realisme
- MOS (Mean Opinion Score) dan uji kejelasan
- Mengendalikan ekspresivitas dan intonasi
- Membandingkan latensi, kualitas suara, dan realisme
Pertimbangan Etis, Hukum, dan Tata Kelola
- Risiko deepfake dan penggunaan bertanggung jawab
- Persetujuan, atribusi, dan implikasi hak cipta
- Peraturan dan kebijakan organisasi
Ringkasan dan Langkah Selanjutnya
Persyaratan
- Memahami dasar-dasar pembelajaran mesin
- Kenal dengan format file audio dan alat pengeditan
- Keterampilan pemrograman Python dasar
Audience
- Pengembang dan insinyur AI yang tertarik pada sintesis suara
- Pencipta konten dan teknolog media yang mengeksplorasi pembuatan suara
- Tim R&D yang membangun sistem audio personalisasi atau dinamis
14 Jam