Kerangka Materi

Pengenalan ke Pembelajaran Penguatan dan AI Agentik

  • Pengambilan keputusan dalam ketidakpastian dan perencanaan berurutan
  • Komponen kunci RL: agen, lingkungan, negara, dan hadiah
  • Peran RL dalam sistem AI adaptif dan agentik

Proses Keputusan Markov (MDPs)

  • Definisi formal dan sifat-sifat MDPs
  • Fungsi nilai, persamaan Bellman, dan pemrograman dinamis
  • Evaluasi kebijakan, perbaikan, dan iterasi

Pembelajaran Penguatan Tanpa Model

  • Monte Carlo dan Temporal-Difference (TD) pembelajaran
  • Q-learning dan SARSA
  • Praktik: mengimplementasikan metode RL tabel dalam Python

Pembelajaran Penguatan Mendalam

  • Menggabungkan jaringan saraf dengan RL untuk aproksimasi fungsi
  • Deep Q-Networks (DQN) dan replay pengalaman
  • Arsitektur Actor-Critic dan gradien kebijakan
  • Praktik: melatih agen menggunakan DQN dan PPO dengan Stable-Baselines3

Strategi Eksplorasi dan Bentuk Hadiah

  • Menyeimbangkan eksplorasi vs. eksploitasi (ε-greedy, UCB, metode entropi)
  • Mendesain fungsi hadiah dan menghindari perilaku yang tidak diinginkan
  • Bentuk hadiah dan pembelajaran kurikulum

Topik Lanjutan dalam RL dan Pengambilan Keputusan

  • Pembelajaran penguatan multi-agen dan strategi kooperatif
  • Pembelajaran penguatan hierarkis dan kerangka opsi
  • RL offline dan pembelajaran imitasi untuk implementasi yang lebih aman

Lingkungan Simulasi dan Evaluasi

  • Menggunakan OpenAI Gym dan lingkungan kustom
  • Ruang tindakan kontinu vs. diskrit
  • Metrik untuk kinerja agen, stabilitas, dan efisiensi sampel

Mengintegrasikan RL ke Sistem AI Agentik

  • Menggabungkan penalaran dan RL dalam arsitektur agen hibrida
  • Mengintegrasikan pembelajaran penguatan dengan agen yang menggunakan alat
  • Pertimbangan operasional untuk penskalaan dan implementasi

Proyek Capstone

  • Mendesain dan mengimplementasikan agen pembelajaran penguatan untuk tugas simulasi
  • Menganalisis kinerja pelatihan dan mengoptimalkan hyperparameter
  • Menunjukkan perilaku adaptif dan pengambilan keputusan dalam konteks agentik

Ringkasan dan Langkah Selanjutnya

Persyaratan

  • Penguasaan kuat dalam pemrograman Python
  • Pemahaman yang solid tentang konsep pembelajaran mesin dan pembelajaran mendalam
  • Kenalan dengan aljabar linear, probabilitas, dan metode optimasi dasar

Audience

  • Insinyur pembelajaran penguatan dan peneliti AI terapan
  • Pengembang robotika dan otomasi
  • Tim insinyur yang bekerja pada sistem AI adaptif dan agentik
 28 jam

Jumlah Peserta


Harga per Peserta

Testimoni (3)

Kursus Mendatang

Kategori Terkait