Kerangka Materi

Pengenalan, Tujuan, dan Strategi Migrasi

  • Tujuan kursus, penyesuaian profil peserta, dan kriteria keberhasilan
  • Pendekatan migrasi tingkat tinggi dan pertimbangan risiko
  • Menyiapkan ruang kerja, repositori, dan dataset lab

Hari 1 — Fundamen Migrasi dan Arsitektur

  • Konsep Lakehouse, gambaran Delta Lake, dan arsitektur Databricks
  • Perbedaan SMP vs MPP dan implikasinya untuk migrasi
  • Desain Medallion (Bronze→Silver→Gold) dan gambaran Unity Catalog

Lab Hari 1 — Menerjemahkan Stored Procedure

  • Latihan praktik migrasi sample stored procedure ke notebook
  • Pemetaan tabel sementara dan kursor ke transformasi DataFrame
  • Validasi dan perbandingan dengan output asli

Hari 2 — Delta Lake Lanjutan & Pengingkatan Incremental

  • Transaksi ACID, log commit, versi, dan time travel
  • Auto Loader, pola MERGE INTO, upserts, dan evolusi skema
  • OPTIMIZE, VACUUM, Z-ORDER, partisi, dan penyetelan penyimpanan

Lab Hari 2 — Pengingkatan Incremental & Optimasi

  • Mengimplementasikan ingestion Auto Loader dan workflow MERGE
  • Menerapkan OPTIMIZE, Z-ORDER, dan VACUUM; validasi hasil
  • Mengukur peningkatan kinerja read/write

Hari 3 — SQL di Databricks, Kinerja & Debugging

  • Fitur analitik SQL: fungsi window, fungsi tingkat tinggi, penanganan JSON/array
  • Membaca Spark UI, DAGs, shuffles, stages, tasks, dan diagnosis bottleneck
  • Pola tuning query: broadcast joins, hints, caching, dan pengurangan spill

Lab Hari 3 — Refactoring SQL & Tuning Kinerja

  • Merefaktor proses SQL berat menjadi Spark SQL yang dioptimalkan
  • Gunakan jejak Spark UI untuk mengidentifikasi dan memperbaiki skew dan masalah shuffle
  • Benchmark before/after dan dokumentasi langkah tuning

Hari 4 — PySpark Taktis: Menggantikan Logika Prosedural

  • Model eksekusi Spark: driver, executor, evaluasi malas, dan strategi partisi
  • Transformasi loop dan kursor menjadi operasi DataFrame vektorisasi
  • Modularisasi, UDFs/pandas UDFs, widget, dan perpustakaan yang dapat digunakan ulang

Lab Hari 4 — Refactoring Skrip Prosedural

  • Merefaktor skrip ETL prosedural menjadi notebook PySpark modular
  • Memperkenalkan parametrasi, tes gaya unit, dan fungsi yang dapat digunakan ulang
  • Review kode dan aplikasi daftar periksa best practice

Hari 5 — Orkestrasi, Pipeline End-to-End & Best Practices

  • Databricks Workflows: desain pekerjaan, ketergantungan tugas, pemicu, dan penanganan kesalahan
  • Mendesain pipeline Medallion incremental dengan aturan kualitas dan validasi skema
  • Integrasi dengan Git (GitHub/Azure DevOps), CI, dan strategi pengujian untuk logika PySpark

Lab Hari 5 — Membangun Pipeline End-to-End Lengkap

  • Merakit pipeline Bronze→Silver→Gold yang diorkestrasi dengan Workflows
  • Mengimplementasikan logging, auditing, retries, dan validasi otomatis
  • Menjalankan pipeline penuh, memvalidasi output, dan menyiapkan catatan penyebaran

Operasionalisasi, Governance, dan Kesiapan Produksi

  • Best practices governance Unity Catalog, lineage, dan kontrol akses
  • Biaya, ukuran cluster, autoscaling, dan pola konkurensi pekerjaan
  • Daftar periksa penyebaran, strategi rollback, dan pembuatan runbook

Tinjauan Akhir, Transfer Pengetahuan, dan Langkah Selanjutnya

  • Presentasi peserta tentang pekerjaan migrasi dan pelajaran yang dipelajari
  • Analisis celah, kegiatan tindak lanjut yang direkomendasikan, dan serah terima bahan pelatihan
  • Referensi, jalur pembelajaran lebih lanjut, dan opsi dukungan

Persyaratan

  • Pemahaman konsep data engineering
  • Pengalaman dengan SQL dan stored procedures (Synapse / SQL Server)
  • Kenalan dengan konsep orkestrasi ETL (ADF atau sejenisnya)

Audience

  • Manajer teknologi dengan latar belakang data engineering
  • Data engineer yang beralih dari logika OLAP prosedural ke pola Lakehouse
  • Platform engineers yang bertanggung jawab atas adopsi Databricks
 35 Jam

Jumlah Peserta


Harga per Peserta

Kursus Mendatang

Kategori Terkait