Kerangka Materi
Pengenalan, Tujuan, dan Strategi Migrasi
- Tujuan kursus, penyesuaian profil peserta, dan kriteria keberhasilan
- Pendekatan migrasi tingkat tinggi dan pertimbangan risiko
- Menyiapkan ruang kerja, repositori, dan dataset lab
Hari 1 — Fundamen Migrasi dan Arsitektur
- Konsep Lakehouse, gambaran Delta Lake, dan arsitektur Databricks
- Perbedaan SMP vs MPP dan implikasinya untuk migrasi
- Desain Medallion (Bronze→Silver→Gold) dan gambaran Unity Catalog
Lab Hari 1 — Menerjemahkan Stored Procedure
- Latihan praktik migrasi sample stored procedure ke notebook
- Pemetaan tabel sementara dan kursor ke transformasi DataFrame
- Validasi dan perbandingan dengan output asli
Hari 2 — Delta Lake Lanjutan & Pengingkatan Incremental
- Transaksi ACID, log commit, versi, dan time travel
- Auto Loader, pola MERGE INTO, upserts, dan evolusi skema
- OPTIMIZE, VACUUM, Z-ORDER, partisi, dan penyetelan penyimpanan
Lab Hari 2 — Pengingkatan Incremental & Optimasi
- Mengimplementasikan ingestion Auto Loader dan workflow MERGE
- Menerapkan OPTIMIZE, Z-ORDER, dan VACUUM; validasi hasil
- Mengukur peningkatan kinerja read/write
Hari 3 — SQL di Databricks, Kinerja & Debugging
- Fitur analitik SQL: fungsi window, fungsi tingkat tinggi, penanganan JSON/array
- Membaca Spark UI, DAGs, shuffles, stages, tasks, dan diagnosis bottleneck
- Pola tuning query: broadcast joins, hints, caching, dan pengurangan spill
Lab Hari 3 — Refactoring SQL & Tuning Kinerja
- Merefaktor proses SQL berat menjadi Spark SQL yang dioptimalkan
- Gunakan jejak Spark UI untuk mengidentifikasi dan memperbaiki skew dan masalah shuffle
- Benchmark before/after dan dokumentasi langkah tuning
Hari 4 — PySpark Taktis: Menggantikan Logika Prosedural
- Model eksekusi Spark: driver, executor, evaluasi malas, dan strategi partisi
- Transformasi loop dan kursor menjadi operasi DataFrame vektorisasi
- Modularisasi, UDFs/pandas UDFs, widget, dan perpustakaan yang dapat digunakan ulang
Lab Hari 4 — Refactoring Skrip Prosedural
- Merefaktor skrip ETL prosedural menjadi notebook PySpark modular
- Memperkenalkan parametrasi, tes gaya unit, dan fungsi yang dapat digunakan ulang
- Review kode dan aplikasi daftar periksa best practice
Hari 5 — Orkestrasi, Pipeline End-to-End & Best Practices
- Databricks Workflows: desain pekerjaan, ketergantungan tugas, pemicu, dan penanganan kesalahan
- Mendesain pipeline Medallion incremental dengan aturan kualitas dan validasi skema
- Integrasi dengan Git (GitHub/Azure DevOps), CI, dan strategi pengujian untuk logika PySpark
Lab Hari 5 — Membangun Pipeline End-to-End Lengkap
- Merakit pipeline Bronze→Silver→Gold yang diorkestrasi dengan Workflows
- Mengimplementasikan logging, auditing, retries, dan validasi otomatis
- Menjalankan pipeline penuh, memvalidasi output, dan menyiapkan catatan penyebaran
Operasionalisasi, Governance, dan Kesiapan Produksi
- Best practices governance Unity Catalog, lineage, dan kontrol akses
- Biaya, ukuran cluster, autoscaling, dan pola konkurensi pekerjaan
- Daftar periksa penyebaran, strategi rollback, dan pembuatan runbook
Tinjauan Akhir, Transfer Pengetahuan, dan Langkah Selanjutnya
- Presentasi peserta tentang pekerjaan migrasi dan pelajaran yang dipelajari
- Analisis celah, kegiatan tindak lanjut yang direkomendasikan, dan serah terima bahan pelatihan
- Referensi, jalur pembelajaran lebih lanjut, dan opsi dukungan
Persyaratan
- Pemahaman konsep data engineering
- Pengalaman dengan SQL dan stored procedures (Synapse / SQL Server)
- Kenalan dengan konsep orkestrasi ETL (ADF atau sejenisnya)
Audience
- Manajer teknologi dengan latar belakang data engineering
- Data engineer yang beralih dari logika OLAP prosedural ke pola Lakehouse
- Platform engineers yang bertanggung jawab atas adopsi Databricks