Kerangka Materi

Pendahuluan tentang Sintesis Suara dan Pembiakan Suara

  • Ringkasan dari text-to-speech (TTS) dan sintesis suara neural
  • Pembiakan suara vs pembangkitan ucapan: kasus penggunaan dan batasannya
  • Model kunci: Tacotron, WaveNet, FastSpeech, VITS

Bekerja dengan Platform Komersial

  • Menggunakan ElevenLabs dan Resemble AI
  • Pembuatan, pembiakan, dan pengeditan suara
  • Akses API dan alur kerja text-to-speech

Membangun dengan Alat Sumber Terbuka

  • Instalasi dan konfigurasi Coqui TTS
  • Pelatihan suara kustom dan manajemen dataset
  • Pembangkitan ucapan dengan kontrol yang halus (pitch, kecepatan, emosi)

Persiapan Data dan Dataset Suara Management

  • Pengumpulan dan pembersihan sampel suara
  • Segmentasi, penandaan, dan sinkronisasi transkripsi
  • Sumber etis dan persetujuan suara

Integrasi Aplikasi

  • Menyisipkan TTS dalam situs web dan aplikasi
  • Pembuatan sistem IVR dan bot interaktif
  • Pembangkitan dialog sintetis untuk video dan game

Evaluasi Kualitas dan Realisme

  • Uji MOS (Mean Opinion Score) dan kejelasan ucapan
  • Kontrol ekspresif dan prosodi
  • Perbandingan latency, fidelitas, dan realisme

Pertimbangan Etika, Legal, dan Governance

  • Risiko deepfake dan penggunaan yang bertanggung jawab
  • Persetujuan, atribusi, dan implikasi hak cipta
  • Regulasi dan kebijakan organisasi

Ringkasan dan Langkah Berikutnya

Persyaratan

  • Pemahaman dasar tentang machine learning
  • Ketahuan dengan format file audio dan alat pengeditan
  • Keterampilan pemrograman dasar Python

Audience

  • Pengembang dan insinyur AI yang tertarik dengan sintesis suara
  • Pencipta konten dan teknologi media yang mengusahakan pembangkitan suara
  • Tim R&D yang membangun sistem audio personal atau dinamis
 14 Jam

Jumlah Peserta


Biaya per Peserta

Upcoming Courses (Minimal 5 peserta)

Kategori Terkait