Kerangka Materi
Pengantar Machine Learning
- Jenis-jenis machine learning – terawasi vs tidak terawasi
- Dari pemodelan statistik ke machine learning
- Alur kerja data mining: pemahaman bisnis, persiapan data, pemodelan, implementasi
- Memilih algoritma yang tepat untuk tugas tertentu
- Overfitting dan trade-off bias-variance
Pandangan Umum Python dan Perpustakaan ML
- Mengapa menggunakan bahasa pemrograman untuk ML
- Memilih antara R dan Python
- Kursus ringkas Python dan Jupyter Notebooks
- Perpustakaan Python: pandas, NumPy, scikit-learn, matplotlib, seaborn
Pengujian dan Penilaian Algorithma ML
- Generalisasi, overfitting, dan validasi model
- Strategi penilaian: holdout, cross-validation, bootstrapping
- Metrik untuk regresi: ME, MSE, RMSE, MAPE
- Metrik untuk klasifikasi: akurasi, matriks konfusi, kelas yang tidak seimbang
- Visualisasi kinerja model: kurva keuntungan, kurva ROC, kurva lift
- Seleksi model dan grid search untuk tuning
Persiapan Data
- Impor dan penyimpanan data di Python
- Analisis eksplorasi dan statistik ringkasan
- Menangani nilai yang hilang dan outlier
- Standarisasi, normalisasi, dan transformasi
- Pengkodean data kualitatif dan manipulasi data dengan pandas
Algoritma Klasifikasi
- Klasifikasi biner vs multiclass
- Regressi logistik dan fungsi diskriminan
- Naïve Bayes, k-nearest neighbors
- Pohon keputusan: CART, Random Forests, Bagging, Boosting, XGBoost
- Mesin vektor dukungan dan kernel
- Teknik pembelajaran ensemble
Regresi dan Prediksi Numerik
- Least squares dan pemilihan variabel
- Metode regularisasi: L1, L2
- Regresi polinomial dan model nonlinear
- Pohon regresi dan spline
Jaringan Saraf
- Pengantar jaringan saraf dan deep learning
- Fungsi aktivasi, lapisan, dan backpropagation
- Multilayer perceptrons (MLP)
- Menggunakan TensorFlow atau PyTorch untuk pemodelan jaringan saraf dasar
- Jaringan saraf untuk klasifikasi dan regresi
Peramalan Penjualan dan Analisis Prediktif
- Peramalan seri waktu vs regresi
- Menangani data berbasis musim dan tren
- Membangun model peramalan penjualan menggunakan teknik ML
- Menevaluasi akurasi peramalan dan ketidakpastian
- Interpretasi dan komunikasi hasil bisnis
Pembelajaran Tidak Terawasi
- Teknik clustering: k-means, k-medoids, clustering hierarkis, SOMs
- Reduksi dimensi: PCA, analisis faktor, SVD
- Pengukuran multidimensi
Penambangan Tekst
- Pra-pemrosesan dan tokenisasi teks
- Bag-of-words, stemming, dan lemmatization
- Analisis sentimen dan frekuensi kata
- Visualisasi data teks dengan awan kata
Sistem Rekomendasi
- Filtering kolaboratif berbasis pengguna dan berbasis item
- Desain dan penilaian mesin rekomendasi
Penambangan Pola Asosiasi
- Set item yang sering dan algoritma Apriori
- Analisis keranjang pasar dan rasio lift
Deteksi Outlier
- Analisis nilai ekstrem
- Metode berbasis jarak dan berbasis ketebalan
- Deteksi outlier pada data berdimensi tinggi
Studi Kasus Machine Learning
- Memahami masalah bisnis
- Pra-pemrosesan data dan insinyur fitur
- Seleksi model dan penyesuaian parameter
- Penilaian dan presentasi hasil
- Implementasi
Ringkasan dan Langkah Selanjutnya
Persyaratan
- Pengetahuan dasar tentang konsep machine learning seperti supervised dan unsupervised learning
- Familiarity with Python programming (variables, loops, functions)
- Pengalaman beberapa dalam penanganan data menggunakan library seperti pandas atau NumPy berguna tetapi tidak wajib
- Tidak ada pengalaman sebelumnya dengan modeling lanjutan atau neural networks yang diharapkan
Audience
- Data scientists
- Business analysts
- Software engineers and technical professionals working with data
Testimoni (2)
the ML ecosystem not only MLFlow but Optuna, hyperops, docker , docker-compose
Guillaume GAUTIER - OLEA MEDICAL
Kursus - MLflow
I enjoyed participating in the Kubeflow training, which was held remotely. This training allowed me to consolidate my knowledge for AWS services, K8s, all the devOps tools around Kubeflow which are the necessary bases to properly tackle the subject. I wanted to thank Malawski Marcin for his patience and professionalism for training and advice on best practices. Malawski approaches the subject from different angles, different deployment tools Ansible, EKS kubectl, Terraform. Now I am definitely convinced that I am going into the right field of application.