Hubungi Kami

Kerangka Materi

PySpark & Machine Learning 

Modul 1: Fondasi Big Data & Spark

  • Ikhtisar ekosistem Big Data dan peran Spark dalam platform data modern
  • Memahami arsitektur Spark: driver, executor, cluster manager, evaluasi malas (lazy evaluation), DAG, dan perencanaan eksekusi
  • Perbedaan antara API RDD dan DataFrame serta kapan masing-masing pendekatan sebaiknya digunakan
  • Membuat dan mengonfigurasi SparkSession serta memahami fondasi konfigurasi aplikasi

Modul 2: PySpark DataFrame

  • Membaca dan menulis data dari sumber dan format perusahaan (CSV, JSON, Parquet, Delta)
  • Bekerja dengan PySpark DataFrame: transformasi, aksi, ekspresi kolom, filtering, join, dan agregasi
  • Menerapkan operasi lanjutan seperti fungsi window, penanganan timestamp, dan bekerja dengan data bersarang (nested data)
  • Melakukan pemeriksaan kualitas data serta menulis kode PySpark yang dapat digunakan kembali dan mudah dikelola

Modul 3: Memproses Dataset Berskala Besar secara Efisien

  • Memahami fondasi performa: strategi partisi, perilaku shuffle, caching, dan persistensi
  • Menggunakan teknik optimasi termasuk broadcast join dan analisis rencana eksekusi
  • Pemrosesan dataset berskala besar yang efisien serta praktik terbaik untuk alur kerja data yang dapat diskalakan
  • Memahami evolusi skema dan format penyimpanan modern yang digunakan dalam lingkungan perusahaan

Modul 4: Rekayasa Fitur dalam Skala Besar

  • Melakukan rekayasa fitur dengan Spark MLlib: penanganan nilai yang hilang, pengkodean variabel kategorikal, dan penskalaan fitur
  • Merancang langkah-langkah pra-pemrosesan yang dapat digunakan kembali serta mempersiapkan dataset untuk alur kerja Machine Learning
  • Pengenalan pemilihan fitur dan penanganan dataset yang tidak seimbang

Modul 5: Machine Learning dengan Spark MLlib

  • Memahami arsitektur MLlib serta pola Estimator/Transformer
  • Melatih model regresi dan klasifikasi dalam skala besar (Linear Regression, Logistic Regression, Decision Trees, Random Forest)
  • Membandingkan model dan menafsirkan hasil dalam alur kerja Machine Learning terdistribusi

Modul 6: Alur Kerja ML dari Awal hingga Akhir

  • Membangun alur kerja Machine Learning dari awal hingga akhir yang menggabungkan pra-pemrosesan, rekayasa fitur, dan pemodelan
  • Menerapkan strategi pemisahan data menjadi pelatihan, validasi, dan pengujian
  • Melakukan validasi silang dan penyesuaian hiperparameter menggunakan grid search dan random search
  • Mengstrukturkan eksperimen Machine Learning yang dapat direproduksi

Modul 7: Evaluasi Model & Pengambilan Keputusan Praktis dalam Machine Learning

  • Menerapkan metrik evaluasi yang tepat untuk masalah regresi dan klasifikasi
  • Mengidentifikasi overfitting dan underfitting serta membuat keputusan praktis dalam pemilihan model
  • Menafsirkan pentingnya fitur dan memahami perilaku model

Modul 8: Praktik Produksi & Perusahaan

  • Menyimpan dan memuat model di Spark
  • Menerapkan alur kerja inferensi batch pada dataset berskala besar
  • Memahami siklus hidup Machine Learning dalam lingkungan perusahaan
  • Pengenalan konsep penomoran versi (versioning), pelacakan eksperimen, serta strategi pengujian dasar

 

Hasil Praktis

  • Kemampuan bekerja secara mandiri dengan PySpark
  • Kemampuan memproses dataset berskala besar secara efisien
  • Kemampuan melakukan rekayasa fitur dalam skala besar
  • Kemampuan membangun alur kerja Machine Learning yang dapat diskalakan

Persyaratan

Peserta diharapkan memiliki latar belakang sebagai berikut:

Pengetahuan dasar pemrograman Python, termasuk penggunaan fungsi, struktur data, dan pustaka
Pemahaman mendasar tentang konsep analisis data seperti dataset, transformasi, dan agregasi
Pengetahuan dasar tentang SQL dan konsep data relasional
Pemahaman awal mengenai konsep Machine Learning seperti dataset pelatihan, fitur, dan metrik evaluasi
Diharapkan memiliki familiarity dengan lingkungan baris perintah serta praktik pengembangan perangkat lunak dasar

Pengalaman menggunakan Pandas, NumPy, atau pustaka pemrosesan data sejenis sangat membantu namun tidak wajib.

 21 Jam

Jumlah Peserta


Harga per Peserta

Testimoni (1)

Kursus Mendatang

Kategori Terkait