Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF) Training Course
Reinforcement Learning dari Human Feedback (RLHF) adalah metode terkini yang digunakan untuk fine-tuning model seperti ChatGPT dan sistem AI kelas atas lainnya.
Pelatihan langsung ini (daring atau tatap muka) ditujukan bagi insinyur pembelajaran mesin tingkat lanjut dan peneliti AI yang ingin menerapkan RLHF untuk fine-tuning model AI besar demi performa, keselamatan, dan keterpaduan yang lebih baik.
Selesai mengikuti pelatihan ini, peserta akan dapat:
- Mengerti fondasi teoretis dari RLHF dan mengapa hal tersebut penting dalam pengembangan AI modern.
- Melaksanakan model reward berdasarkan umpan balik manusia untuk memandu proses pembelajaran reformentasi.
- Menyesuaikan model bahasa besar menggunakan teknik RLHF agar keluarannya sesuai dengan preferensi manusia.
- Menerapkan praktik terbaik untuk menskalakan alur kerja RLHF pada sistem AI tingkat produksi.
Format Kursus
- Lecture interaktif dan diskusi.
- Banyak latihan dan praktek.
- Pelaksanaan langsung dalam lingkungan laboratorium live.
Opsi Pemaduan Kursus
- Untuk meminta pelatihan yang disesuaikan untuk kursus ini, silakan hubungi kami untuk mengatur hal tersebut.
Course Outline
Pengantar ke Reinforcement Learning dari Umpan Balik Manusia (RLHF)
- Apa itu RLHF dan mengapa hal tersebut penting
- Perbandingan dengan metode fine-tuning berbasis pengawasan
- Aplikasi RLHF dalam sistem AI modern
Pemodelan Hadiah dengan Umpan Balik Manusia
- Mengumpulkan dan mengstrukturkan umpan balik manusia
- Membangun dan melatih model hadiah
- Evaluasi efektivitas model hadiah
Latihan dengan Optimisasi Kebijakan Proksimal (PPO)
- Ringkasan algoritma PPO untuk RLHF
- Melaksanakan PPO dengan model hadiah
- Mengoptimalkan model secara iteratif dan aman
Aplikasi Praktis Model Bahasa
- Menyiapkan dataset untuk alur kerja RLHF
- Praktek fine-tuning LLM kecil menggunakan RLHF
- Tantangan dan strategi mitigasi
Meningkatkan Skala RLHF ke Sistem Produksi
- Pertimbangan infrastruktur dan komputasi
- Penjaminan kualitas dan siklus umpan balik berkelanjutan
- Praktik terbaik untuk implementasi dan pemeliharaan
Pertimbangan Etika dan Mitigasi Bias
- Mengatasi risiko etika dalam umpan balik manusia
- Stra tegi deteksi dan koreksi bias
- Menjamin aliansi dan output aman
Studi Kasus dan Contoh Nyata
- Studi kasus: Fine-tuning ChatGPT dengan RLHF
- Penerapan RLHF yang sukses lainnya
- Lessons learned dan wawasan industri
Rangkuman dan Langkah Selanjutnya
Requirements
- Pemahaman tentang dasar-dasar pembelajaran bersupervisi dan pembelajaran berincentif
- Pengalaman dengan penyetelan model dan arsitektur jaringan saraf
- Ketahui tentang Python pemrograman dan kerangka kerja pembelajaran dalam (misalnya, TensorFlow, PyTorch)
Audience
- Insinyur Machine Learning
- Peneliti AI
Open Training Courses require 5+ participants.
Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF) Training Course - Booking
Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF) Training Course - Enquiry
Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF) - Consultancy Enquiry
Consultancy Enquiry
Upcoming Courses (Minimal 5 peserta)
Related Courses
Advanced Techniques in Transfer Learning
14 HoursPelatihan langsung yang dipandu instruktur di Indonesia (online atau di tempat) ini ditujukan untuk profesional pembelajaran mesin tingkat lanjut yang ingin menguasai teknik pembelajaran transfer mutakhir dan menerapkannya pada masalah dunia nyata yang kompleks.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami konsep dan metodologi lanjutan dalam pembelajaran transfer.
- Menerapkan teknik adaptasi spesifik domain untuk model yang telah dilatih sebelumnya.
- Terapkan pembelajaran berkelanjutan untuk mengelola tugas dan kumpulan data yang terus berkembang.
- Kuasai penyempurnaan multitugas untuk meningkatkan kinerja model di seluruh tugas.
Deploying Fine-Tuned Models in Production
21 HoursPelatihan langsung yang dipandu instruktur di Indonesia (online atau di tempat) ini ditujukan untuk profesional tingkat lanjut yang ingin menerapkan model yang disetel dengan baik secara andal dan efisien.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami tantangan dalam menerapkan model yang disesuaikan ke dalam produksi.
- Kontainerisasi dan terapkan model menggunakan alat seperti Docker dan Kubernetes.
- Terapkan pemantauan dan pencatatan untuk model yang diterapkan.
- Optimalkan model untuk latensi dan skalabilitas dalam skenario dunia nyata.
Domain-Specific Fine-Tuning for Finance
21 HoursPelatihan langsung yang dipimpin instruktur di Indonesia (online atau di tempat) ini ditujukan untuk profesional tingkat menengah yang ingin memperoleh keterampilan praktis dalam menyesuaikan model AI untuk tugas keuangan penting.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami dasar-dasar penyempurnaan untuk aplikasi keuangan.
- Memanfaatkan model yang telah dilatih sebelumnya untuk tugas-tugas spesifik domain dalam keuangan.
- Terapkan teknik untuk deteksi penipuan, penilaian risiko, dan pembuatan saran keuangan.
- Pastikan kepatuhan terhadap peraturan keuangan seperti GDPR dan SOX.
- Terapkan keamanan data dan praktik AI yang etis dalam aplikasi keuangan.
Fine-Tuning Models and Large Language Models (LLMs)
14 HoursPelatihan langsung yang dipandu instruktur di Indonesia (online atau di tempat) ini ditujukan untuk profesional tingkat menengah hingga tingkat lanjut yang ingin menyesuaikan model terlatih untuk tugas dan kumpulan data tertentu.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami prinsip fine-tuning dan penerapannya.
- Siapkan kumpulan data untuk menyempurnakan model yang telah dilatih sebelumnya.
- Menyempurnakan model bahasa besar (LLM) untuk tugas NLP.
- Mengoptimalkan kinerja model dan mengatasi tantangan umum.
Efficient Fine-Tuning with Low-Rank Adaptation (LoRA)
14 HoursPelatihan langsung yang dipimpin instruktur di Indonesia (online atau di tempat) ini ditujukan untuk pengembang tingkat menengah dan praktisi AI yang ingin menerapkan strategi penyempurnaan untuk model besar tanpa memerlukan sumber daya komputasi yang besar.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami prinsip Adaptasi Tingkat Rendah (LoRA).
- Terapkan LoRA untuk penyempurnaan model besar yang efisien.
- Mengoptimalkan penyempurnaan untuk lingkungan dengan keterbatasan sumber daya.
- Mengevaluasi dan menerapkan model yang disesuaikan LoRA untuk aplikasi praktis.
Fine-Tuning Multimodal Models
28 HoursPelatihan langsung yang dipandu instruktur di Indonesia (online atau di tempat) ini ditujukan untuk profesional tingkat lanjut yang ingin menguasai penyempurnaan model multimoda untuk solusi AI yang inovatif.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami arsitektur model multimoda seperti CLIP dan Flamingo.
- Menyiapkan dan memproses terlebih dahulu kumpulan data multimoda secara efektif.
- Menyempurnakan model multimoda untuk tugas tertentu.
- Mengoptimalkan model untuk aplikasi dan kinerja dunia nyata.
Fine-Tuning for Natural Language Processing (NLP)
21 HoursPelatihan langsung yang dipandu instruktur dalam Indonesia (online atau di tempat) ini ditujukan untuk profesional tingkat menengah yang ingin meningkatkan proyek NLP mereka melalui penyempurnaan model bahasa yang telah dilatih sebelumnya secara efektif.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami dasar-dasar penyempurnaan untuk tugas-tugas NLP.
- Menyempurnakan model yang telah dilatih sebelumnya seperti GPT, BERT, dan T5 untuk aplikasi NLP tertentu.
- Optimalkan hiperparameter untuk meningkatkan kinerja model.
- Mengevaluasi dan menerapkan model yang disempurnakan pada skenario dunia nyata.
Fine-Tuning DeepSeek LLM for Custom AI Models
21 HoursPelatihan langsung yang dipandu instruktur di Indonesia (online atau di tempat) ini ditujukan untuk peneliti AI tingkat lanjut, insinyur pembelajaran mesin, dan pengembang yang ingin menyempurnakan model DeepSeek LLM untuk membuat aplikasi AI khusus yang disesuaikan dengan industri, domain, atau kebutuhan bisnis tertentu.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami arsitektur dan kemampuan model DeepSeek, termasuk DeepSeek-R1 dan DeepSeek-V3.
- Menyiapkan himpunan data dan melakukan praproses data untuk penyempurnaan.
- Sempurnakan DeepSeek LLM untuk aplikasi spesifik domain.
- Optimalkan dan terapkan model yang disesuaikan secara efisien.
Fine-Tuning Large Language Models Using QLoRA
14 HoursPelatihan berorientasi instruktur ini di Indonesia (daring atau tatap muka) ditujukan untuk insinyur pembelajaran mesin tingkat menengah hingga lanjutan, pengembang AI, dan ilmuwan data yang ingin belajar cara menggunakan QLoRA untuk mengoptimalkan model besar secara efisien untuk tugas spesifik dan kustomisasi.
Selesai pelatihan ini, peserta akan dapat:
- Mengerti teori di balik QLoRA dan teknik kuantifikasi untuk LLM (Large Language Models).
- Melaksanakan QLoRA dalam pengoptimalan model bahasa besar untuk aplikasi spesifik domain.
- Memaksimalkan performa pengoptimalan pada sumber daya komputasional terbatas menggunakan kuantifikasi.
- Mengimplementasikan dan mengevaluasi model yang dioptimalkan dalam aplikasi dunia nyata secara efisien.
Fine-Tuning Open-Source LLMs (LLaMA, Mistral, Qwen, etc.)
14 HoursPelatihan langsung yang dipimpin instruktur di Indonesia (daring atau tatap muka) ini ditujukan untuk praktisi ML tingkat menengah dan pengembang AI yang ingin memperhalus dan mendeploy model open-weight seperti LLaMA, Mistral, dan Qwen untuk aplikasi bisnis atau internal tertentu.
Selesai pelatihan ini, peserta akan dapat:
- Mengerti ekosistem dan perbedaan antara LLM sumber terbuka.
- Mempersiapkan dataset dan konfigurasi pemulusan untuk model seperti LLaMA, Mistral, dan Qwen.
- Mengeksekusi pipa pemulusan menggunakan Hugging Face Transformers dan PEFT.
- Menilai, menyimpan, dan mendeploy model yang telah dipermulus dalam lingkungan yang aman.
Optimizing Large Models for Cost-Effective Fine-Tuning
21 HoursPelatihan langsung yang dipandu instruktur di Indonesia (online atau di tempat) ini ditujukan untuk para profesional tingkat lanjut yang ingin menguasai teknik untuk mengoptimalkan model besar guna melakukan penyempurnaan dengan biaya yang efektif dalam skenario dunia nyata.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami tantangan dalam menyempurnakan model besar.
- Terapkan teknik pelatihan terdistribusi ke model besar.
- Memanfaatkan kuantisasi dan pemangkasan model untuk efisiensi.
- Mengoptimalkan pemanfaatan perangkat keras untuk tugas-tugas penyempurnaan.
- Terapkan model yang disempurnakan secara efektif di lingkungan produksi.
Prompt Engineering and Few-Shot Fine-Tuning
14 HoursPelatihan langsung yang dipandu instruktur di Indonesia (online atau di tempat) ini ditujukan untuk profesional tingkat menengah yang ingin memanfaatkan kekuatan rekayasa cepat dan pembelajaran beberapa langkah untuk mengoptimalkan kinerja LLM untuk aplikasi di dunia nyata.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami prinsip rekayasa cepat dan pembelajaran beberapa langkah.
- Rancang perintah yang efektif untuk berbagai tugas NLP.
- Memanfaatkan teknik few-shot untuk mengadaptasi LLM dengan data minimal.
- Mengoptimalkan kinerja LLM untuk aplikasi praktis.
Parameter-Efficient Fine-Tuning (PEFT) Techniques for LLMs
14 HoursPelatihan langsung yang dipimpin instruktur di Indonesia (daring atau tatap muka) ini ditujukan bagi ilmuwan data dan insinyur AI tingkat menengah yang ingin mengoptimalkan penyetelan model bahasa besar dengan lebih efisien dan ekonomis menggunakan metode seperti LoRA, Adapter Tuning, dan Prefix Tuning.
Selesai pelatihan ini, peserta akan dapat:
- Mengerti teori di balik pendekatan penyetelan parameter-efisien.
- Menerapkan LoRA, Adapter Tuning, dan Prefix Tuning menggunakan Hugging Face PEFT.
- Membandingkan kinerja dan trade-off biaya metode PEFT dengan penyetelan penuh.
- Mengimplementasikan dan menyebarluaskan model bahasa yang telah disetel ulang dengan persyaratan komputasi dan penyimpanan yang lebih rendah.
Introduction to Transfer Learning
14 HoursPelatihan langsung yang dipimpin instruktur di Indonesia (online atau di tempat) ini ditujukan untuk profesional pembelajaran mesin tingkat pemula hingga menengah yang ingin memahami dan menerapkan teknik pembelajaran transfer untuk meningkatkan efisiensi dan kinerja dalam proyek AI.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami konsep inti dan manfaat pembelajaran transfer.
- Jelajahi model pra-terlatih yang populer dan aplikasinya.
- Melakukan penyempurnaan model yang telah dilatih sebelumnya untuk tugas khusus.
- Terapkan pembelajaran transfer untuk memecahkan masalah dunia nyata dalam NLP dan visi komputer.
Troubleshooting Fine-Tuning Challenges
14 HoursPelatihan langsung yang dipandu instruktur di Indonesia (online atau di tempat) ini ditujukan untuk para profesional tingkat lanjut yang ingin menyempurnakan keterampilan mereka dalam mendiagnosis dan memecahkan tantangan penyempurnaan untuk model pembelajaran mesin.
Pada akhir pelatihan ini, peserta akan dapat:
- Mendiagnosis masalah seperti overfitting, underfitting, dan ketidakseimbangan data.
- Menerapkan strategi untuk meningkatkan konvergensi model.
- Mengoptimalkan penyempurnaan jalur pipa untuk performa yang lebih baik.
- Debug proses pelatihan menggunakan alat dan teknik praktis.