Kerangka Materi
Pengenalan, Tujuan, dan Strategi Migrasi
- Tujuan kursus, penyesuaian profil peserta, dan kriteria sukses
- Pendekatan migrasi tingkat tinggi dan pertimbangan risiko
- Penyiapan ruang kerja, repositori, dan dataset laboratorium
Hari 1 — Dasar-dasar Migrasi dan Arsitektur
- Konsep Lakehouse, overview Delta Lake, dan arsitektur Databricks
- Perbedaan SMP vs MPP dan implikasinya untuk migrasi
- Desain Medallion (Bronze→Silver→Gold) dan overview Unity Catalog
Laboratorium Hari 1 — Menerjemahkan Stored Procedure
- Migrasi praktis dari stored procedure sampel ke notebook
- Pemetaan tabel sementara dan kursor ke transformasi DataFrame
- Validasi dan perbandingan dengan output asli
Hari 2 — Delta Lake Lanjutan & Inkremental Loading
- Transaksi ACID, log komitmen, versi, dan time travel
- Auto Loader, pola MERGE INTO, upserts, dan evolusi skema
- OPTIMIZE, VACUUM, Z-ORDER, partisi, dan penyetelan penyimpanan
Laboratorium Hari 2 — Inkremental Ingestion & Optimasi
- Implementasi Auto Loader ingestion dan alur kerja MERGE
- Aplikasi OPTIMIZE, Z-ORDER, dan VACUUM; validasi hasil
- Pengukuran peningkatan kinerja read/write
Hari 3 — SQL di Databricks, Kinerja & Debugging
- Fitur SQL analitik: fungsi window, fungsi tingkat tinggi, penanganan JSON/array
- Membaca Spark UI, DAGs, shuffle, stage, tugas, dan diagnosis leher botol
- Pola penyetelan kueri: join broadcast, hint, caching, dan pengurangan spill
Laboratorium Hari 3 — Refactoring SQL & Penyetelan Kinerja
- Merefaktor proses SQL berat menjadi Spark SQL yang dioptimalkan
- Gunakan jejak Spark UI untuk mengidentifikasi dan memperbaiki masalah skew dan shuffle
- Benchmark sebelum/sesudah dan dokumentasikan langkah-langkah penyetelan
Hari 4 — PySpark Taktis: Menggantikan Logika Prosedural
- Model eksekusi Spark: driver, executor, evaluasi malas, dan strategi partisi
- Transformasi loop dan kursor menjadi operasi DataFrame vektorisasi
- Modularisasi, UDFs/pandas UDFs, widget, dan perpustakaan yang dapat digunakan ulang
Laboratorium Hari 4 — Merefaktor Skrip Prosedural
- Merefaktor skrip ETL prosedural menjadi notebook PySpark modular
- Introduksi parametrasi, uji gaya unit, dan fungsi yang dapat digunakan ulang
- Tinjauan kode dan aplikasi daftar periksa praktik terbaik
Hari 5 — Orkestrasi, Pipa Pengolahan End-to-End & Praktik Terbaik
- Databricks Workflows: desain pekerjaan, ketergantungan tugas, pemicu, dan penanganan kesalahan
- Merancang pipa Medallion inkremental dengan aturan kualitas dan validasi skema
- Integrasi dengan Git (GitHub/Azure DevOps), CI, dan strategi pengujian untuk logika PySpark
Laboratorium Hari 5 — Bangun Pipa Pengolahan End-to-End Lengkap
- Assemble pipeline Bronze→Silver→Gold yang diorkestra dengan Workflows
- Implementasikan logging, audit, retry, dan validasi otomatis
- Jalankan pipa pengolahan penuh, validasi output, dan siapkan catatan penyebaran
Operasionalisasi, Tata Kelola, dan Siap Produksi
- Tata kelola Unity Catalog, garis keturunan, dan praktik kontrol akses terbaik
- Biaya, ukuran cluster, otomatisasi skala, dan pola konkurensi pekerjaan
- Daftar periksa penyebaran, strategi rollback, dan pembuatan buku panduan
Tinjauan Akhir, Transfer Pengetahuan, dan Langkah Selanjutnya
- Presentasi peserta tentang pekerjaan migrasi dan pelajaran yang dipelajari
- Analisis celah, aktivitas pengikut-up yang direkomendasikan, dan serah terima materi pelatihan
- Referensi, jalur pembelajaran lebih lanjut, dan opsi dukungan
Persyaratan
- Pemahaman tentang konsep engineering data
- Pengalaman dengan SQL dan stored procedures (Synapse / SQL Server)
- Kenalan dengan konsep orkestrasi ETL (ADF atau sejenisnya)
Audience
- Manajer teknologi dengan latar belakang engineering data
- Data engineers yang beralih dari logika prosedural OLAP ke pola Lakehouse
- Platform engineers yang bertanggung jawab atas adopsi Databricks