Kerangka Materi

Pengenalan ke Sintesis Suara dan Penclonan Suara

  • Gambaran umum tentang text-to-speech (TTS) dan sintesis suara neural
  • Penclonan suara vs pembuatan ucapan: kasus penggunaan dan batasan
  • Model utama: Tacotron, WaveNet, FastSpeech, VITS

Bekerja dengan Platform Komersial

  • Menggunakan ElevenLabs dan Resemble AI
  • Pembuatan, penclonan, dan pengeditan suara
  • Akses API dan alur kerja text-to-speech

Membangun dengan Alat Open-Source

  • Menginstal dan mengonfigurasi Coqui TTS
  • Melatih suara kustom dan mengelola dataset
  • Membangkitkan ucapan dengan kontrol halus (pitch, kecepatan, emosi)

Persiapan Data dan Pengelolaan Dataset Suara

  • Mengumpulkan dan membersihkan sampel suara
  • Menyegmen, melabeli, dan menyelaraskan transkrip
  • Pembebasan etis dan persetujuan suara

Integrasi Aplikasi

  • Memasukkan TTS ke dalam situs web dan aplikasi
  • Membuat sistem IVR dan bot interaktif
  • Menghasilkan dialog sintetis untuk video dan game

Menilai Kualitas dan Realisme

  • MOS (Mean Opinion Score) dan uji kejelasan
  • Mengendalikan ekspresivitas dan intonasi
  • Membandingkan latensi, kualitas suara, dan realisme

Pertimbangan Etis, Hukum, dan Tata Kelola

  • Risiko deepfake dan penggunaan bertanggung jawab
  • Persetujuan, atribusi, dan implikasi hak cipta
  • Peraturan dan kebijakan organisasi

Ringkasan dan Langkah Selanjutnya

Persyaratan

  • Memahami dasar-dasar pembelajaran mesin
  • Kenal dengan format file audio dan alat pengeditan
  • Keterampilan pemrograman Python dasar

Audience

  • Pengembang dan insinyur AI yang tertarik pada sintesis suara
  • Pencipta konten dan teknolog media yang mengeksplorasi pembuatan suara
  • Tim R&D yang membangun sistem audio personalisasi atau dinamis
 14 Jam

Jumlah Peserta


Harga per Peserta

Kursus Mendatang

Kategori Terkait