Kerangka Materi

Dasar-dasar Debugging dan Evaluasi Mastra

  • Memahami model perilaku agen dan mode kegagalan
  • Prinsip debugging inti dalam Mastra
  • Mengevaluasi tindakan agen deterministik dan non-deterministik

Mengatur Lingkungan untuk Pengujian Agen

  • Mengonfigurasi sandbox pengujian dan ruang evaluasi terisolasi
  • Menangkap log, jejak, dan telemetri untuk analisis mendetail
  • Menyiapkan dataset dan prompt untuk pengujian terstruktur

Debugging Perilaku Agen AI

  • Melacak jalur keputusan dan sinyal penalaran internal
  • Mengidentifikasi halusinasi, kesalahan, dan perilaku yang tidak diinginkan
  • Menggunakan dasbor observabilitas untuk investigasi penyebab akar

Metrik Evaluasi dan Kerangka Pembandingan

  • Mendefinisikan metrik evaluasi kuantitatif dan kualitatif
  • Mengukur akurasi, konsistensi, dan kepatuhan kontekstual
  • Menerapkan dataset pembanding untuk penilaian yang dapat diulang

Rekayasa Keandalan Agen AI

  • Merancang pengujian keandalan untuk agen jangka panjang
  • Mendeteksi drift dan degradasi dalam kinerja agen
  • Menerapkan perlindungan untuk alur kerja kritis

Proses dan Otomatisasi Jaminan Kualitas

  • Membangun pipeline QA untuk evaluasi berkelanjutan
  • Mengotomatisasi pengujian regresi untuk pembaruan agen
  • Mengintegrasikan QA dengan CI/CD dan alur kerja perusahaan

Teknik Lanjutan untuk Pengurangan Halusinasi

  • Strategi prompt untuk mengurangi output yang tidak diinginkan
  • Loop validasi dan mekanisme pemeriksaan diri
  • Eksperimen dengan kombinasi model untuk meningkatkan keandalan

Laporan, Pemantauan, dan Perbaikan Berkelanjutan

  • Mengembangkan laporan QA dan kartu skor agen
  • Memantau perilaku jangka panjang dan pola kesalahan
  • Melakukan iterasi pada kerangka evaluasi untuk sistem yang berkembang

Ringkasan dan Langkah Selanjutnya

Persyaratan

  • Pemahaman tentang perilaku agen AI dan interaksi model
  • Pengalaman dengan debugging atau pengujian sistem perangkat lunak yang kompleks
  • Kenyamanan dengan alat observabilitas atau logging

Audience

  • Insinyur QA
  • Insinyur keandalan AI
  • Pengembang yang bertanggung jawab atas kualitas dan kinerja agen
 21 Jam

Jumlah Peserta


Biaya per Peserta

Kursus Mendatang

Kategori Terkait