Kerangka Materi
PySpark & Machine Learning
Modul 1: Fondasi Big Data & Spark
- Ikhtisar ekosistem Big Data dan peran Spark dalam platform data modern
- Memahami arsitektur Spark: driver, executor, cluster manager, evaluasi malas (lazy evaluation), DAG, dan perencanaan eksekusi
- Perbedaan antara API RDD dan DataFrame serta kapan masing-masing pendekatan sebaiknya digunakan
- Membuat dan mengonfigurasi SparkSession serta memahami fondasi konfigurasi aplikasi
Modul 2: PySpark DataFrame
- Membaca dan menulis data dari sumber dan format perusahaan (CSV, JSON, Parquet, Delta)
- Bekerja dengan PySpark DataFrame: transformasi, aksi, ekspresi kolom, filtering, join, dan agregasi
- Menerapkan operasi lanjutan seperti fungsi window, penanganan timestamp, dan bekerja dengan data bersarang (nested data)
- Melakukan pemeriksaan kualitas data serta menulis kode PySpark yang dapat digunakan kembali dan mudah dikelola
Modul 3: Memproses Dataset Berskala Besar secara Efisien
- Memahami fondasi performa: strategi partisi, perilaku shuffle, caching, dan persistensi
- Menggunakan teknik optimasi termasuk broadcast join dan analisis rencana eksekusi
- Pemrosesan dataset berskala besar yang efisien serta praktik terbaik untuk alur kerja data yang dapat diskalakan
- Memahami evolusi skema dan format penyimpanan modern yang digunakan dalam lingkungan perusahaan
Modul 4: Rekayasa Fitur dalam Skala Besar
- Melakukan rekayasa fitur dengan Spark MLlib: penanganan nilai yang hilang, pengkodean variabel kategorikal, dan penskalaan fitur
- Merancang langkah-langkah pra-pemrosesan yang dapat digunakan kembali serta mempersiapkan dataset untuk alur kerja Machine Learning
- Pengenalan pemilihan fitur dan penanganan dataset yang tidak seimbang
Modul 5: Machine Learning dengan Spark MLlib
- Memahami arsitektur MLlib serta pola Estimator/Transformer
- Melatih model regresi dan klasifikasi dalam skala besar (Linear Regression, Logistic Regression, Decision Trees, Random Forest)
- Membandingkan model dan menafsirkan hasil dalam alur kerja Machine Learning terdistribusi
Modul 6: Alur Kerja ML dari Awal hingga Akhir
- Membangun alur kerja Machine Learning dari awal hingga akhir yang menggabungkan pra-pemrosesan, rekayasa fitur, dan pemodelan
- Menerapkan strategi pemisahan data menjadi pelatihan, validasi, dan pengujian
- Melakukan validasi silang dan penyesuaian hiperparameter menggunakan grid search dan random search
- Mengstrukturkan eksperimen Machine Learning yang dapat direproduksi
Modul 7: Evaluasi Model & Pengambilan Keputusan Praktis dalam Machine Learning
- Menerapkan metrik evaluasi yang tepat untuk masalah regresi dan klasifikasi
- Mengidentifikasi overfitting dan underfitting serta membuat keputusan praktis dalam pemilihan model
- Menafsirkan pentingnya fitur dan memahami perilaku model
Modul 8: Praktik Produksi & Perusahaan
- Menyimpan dan memuat model di Spark
- Menerapkan alur kerja inferensi batch pada dataset berskala besar
- Memahami siklus hidup Machine Learning dalam lingkungan perusahaan
- Pengenalan konsep penomoran versi (versioning), pelacakan eksperimen, serta strategi pengujian dasar
Hasil Praktis
- Kemampuan bekerja secara mandiri dengan PySpark
- Kemampuan memproses dataset berskala besar secara efisien
- Kemampuan melakukan rekayasa fitur dalam skala besar
- Kemampuan membangun alur kerja Machine Learning yang dapat diskalakan
Persyaratan
Peserta diharapkan memiliki latar belakang sebagai berikut:
Pengetahuan dasar pemrograman Python, termasuk penggunaan fungsi, struktur data, dan pustaka
Pemahaman mendasar tentang konsep analisis data seperti dataset, transformasi, dan agregasi
Pengetahuan dasar tentang SQL dan konsep data relasional
Pemahaman awal mengenai konsep Machine Learning seperti dataset pelatihan, fitur, dan metrik evaluasi
Diharapkan memiliki familiarity dengan lingkungan baris perintah serta praktik pengembangan perangkat lunak dasar
Pengalaman menggunakan Pandas, NumPy, atau pustaka pemrosesan data sejenis sangat membantu namun tidak wajib.
Testimoni (1)
Saya suka karena praktis. Saya senang dapat menerapkan pengetahuan teoritis dengan contoh-contoh praktis.
Aurelia-Adriana - Allianz Services Romania
Kursus - Python and Spark for Big Data (PySpark)
Diterjemahkan Mesin