Terima kasih telah mengirimkan pertanyaan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Terima kasih telah mengirimkan pemesanan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Kerangka Materi
Dasar-dasar Debugging dan Evaluasi Mastra
- Memahami model perilaku agen dan mode kegagalan
- Prinsip debugging inti dalam Mastra
- Mengevaluasi tindakan agen deterministik dan non-deterministik
Mengatur Lingkungan untuk Pengujian Agen
- Mengonfigurasi sandbox pengujian dan ruang evaluasi terisolasi
- Menangkap log, jejak, dan telemetri untuk analisis mendetail
- Menyiapkan dataset dan prompt untuk pengujian terstruktur
Debugging Perilaku Agen AI
- Melacak jalur keputusan dan sinyal penalaran internal
- Mengidentifikasi halusinasi, kesalahan, dan perilaku yang tidak diinginkan
- Menggunakan dasbor observabilitas untuk investigasi penyebab akar
Metrik Evaluasi dan Kerangka Pembandingan
- Mendefinisikan metrik evaluasi kuantitatif dan kualitatif
- Mengukur akurasi, konsistensi, dan kepatuhan kontekstual
- Menerapkan dataset pembanding untuk penilaian yang dapat diulang
Rekayasa Keandalan Agen AI
- Merancang pengujian keandalan untuk agen jangka panjang
- Mendeteksi drift dan degradasi dalam kinerja agen
- Menerapkan perlindungan untuk alur kerja kritis
Proses dan Otomatisasi Jaminan Kualitas
- Membangun pipeline QA untuk evaluasi berkelanjutan
- Mengotomatisasi pengujian regresi untuk pembaruan agen
- Mengintegrasikan QA dengan CI/CD dan alur kerja perusahaan
Teknik Lanjutan untuk Pengurangan Halusinasi
- Strategi prompt untuk mengurangi output yang tidak diinginkan
- Loop validasi dan mekanisme pemeriksaan diri
- Eksperimen dengan kombinasi model untuk meningkatkan keandalan
Laporan, Pemantauan, dan Perbaikan Berkelanjutan
- Mengembangkan laporan QA dan kartu skor agen
- Memantau perilaku jangka panjang dan pola kesalahan
- Melakukan iterasi pada kerangka evaluasi untuk sistem yang berkembang
Ringkasan dan Langkah Selanjutnya
Persyaratan
- Pemahaman tentang perilaku agen AI dan interaksi model
- Pengalaman dengan debugging atau pengujian sistem perangkat lunak yang kompleks
- Kenyamanan dengan alat observabilitas atau logging
Audience
- Insinyur QA
- Insinyur keandalan AI
- Pengembang yang bertanggung jawab atas kualitas dan kinerja agen
21 Jam