Kerangka Materi

Pengenalan, Tujuan, dan Strategi Migrasi

  • Tujuan kursus, penyesuaian profil peserta, dan kriteria sukses
  • Pendekatan migrasi tingkat tinggi dan pertimbangan risiko
  • Penyiapan ruang kerja, repositori, dan dataset laboratorium

Hari 1 — Dasar-dasar Migrasi dan Arsitektur

  • Konsep Lakehouse, overview Delta Lake, dan arsitektur Databricks
  • Perbedaan SMP vs MPP dan implikasinya untuk migrasi
  • Desain Medallion (Bronze→Silver→Gold) dan overview Unity Catalog

Laboratorium Hari 1 — Menerjemahkan Stored Procedure

  • Migrasi praktis dari stored procedure sampel ke notebook
  • Pemetaan tabel sementara dan kursor ke transformasi DataFrame
  • Validasi dan perbandingan dengan output asli

Hari 2 — Delta Lake Lanjutan & Inkremental Loading

  • Transaksi ACID, log komitmen, versi, dan time travel
  • Auto Loader, pola MERGE INTO, upserts, dan evolusi skema
  • OPTIMIZE, VACUUM, Z-ORDER, partisi, dan penyetelan penyimpanan

Laboratorium Hari 2 — Inkremental Ingestion & Optimasi

  • Implementasi Auto Loader ingestion dan alur kerja MERGE
  • Aplikasi OPTIMIZE, Z-ORDER, dan VACUUM; validasi hasil
  • Pengukuran peningkatan kinerja read/write

Hari 3 — SQL di Databricks, Kinerja & Debugging

  • Fitur SQL analitik: fungsi window, fungsi tingkat tinggi, penanganan JSON/array
  • Membaca Spark UI, DAGs, shuffle, stage, tugas, dan diagnosis leher botol
  • Pola penyetelan kueri: join broadcast, hint, caching, dan pengurangan spill

Laboratorium Hari 3 — Refactoring SQL & Penyetelan Kinerja

  • Merefaktor proses SQL berat menjadi Spark SQL yang dioptimalkan
  • Gunakan jejak Spark UI untuk mengidentifikasi dan memperbaiki masalah skew dan shuffle
  • Benchmark sebelum/sesudah dan dokumentasikan langkah-langkah penyetelan

Hari 4 — PySpark Taktis: Menggantikan Logika Prosedural

  • Model eksekusi Spark: driver, executor, evaluasi malas, dan strategi partisi
  • Transformasi loop dan kursor menjadi operasi DataFrame vektorisasi
  • Modularisasi, UDFs/pandas UDFs, widget, dan perpustakaan yang dapat digunakan ulang

Laboratorium Hari 4 — Merefaktor Skrip Prosedural

  • Merefaktor skrip ETL prosedural menjadi notebook PySpark modular
  • Introduksi parametrasi, uji gaya unit, dan fungsi yang dapat digunakan ulang
  • Tinjauan kode dan aplikasi daftar periksa praktik terbaik

Hari 5 — Orkestrasi, Pipa Pengolahan End-to-End & Praktik Terbaik

  • Databricks Workflows: desain pekerjaan, ketergantungan tugas, pemicu, dan penanganan kesalahan
  • Merancang pipa Medallion inkremental dengan aturan kualitas dan validasi skema
  • Integrasi dengan Git (GitHub/Azure DevOps), CI, dan strategi pengujian untuk logika PySpark

Laboratorium Hari 5 — Bangun Pipa Pengolahan End-to-End Lengkap

  • Assemble pipeline Bronze→Silver→Gold yang diorkestra dengan Workflows
  • Implementasikan logging, audit, retry, dan validasi otomatis
  • Jalankan pipa pengolahan penuh, validasi output, dan siapkan catatan penyebaran

Operasionalisasi, Tata Kelola, dan Siap Produksi

  • Tata kelola Unity Catalog, garis keturunan, dan praktik kontrol akses terbaik
  • Biaya, ukuran cluster, otomatisasi skala, dan pola konkurensi pekerjaan
  • Daftar periksa penyebaran, strategi rollback, dan pembuatan buku panduan

Tinjauan Akhir, Transfer Pengetahuan, dan Langkah Selanjutnya

  • Presentasi peserta tentang pekerjaan migrasi dan pelajaran yang dipelajari
  • Analisis celah, aktivitas pengikut-up yang direkomendasikan, dan serah terima materi pelatihan
  • Referensi, jalur pembelajaran lebih lanjut, dan opsi dukungan

Persyaratan

  • Pemahaman tentang konsep engineering data
  • Pengalaman dengan SQL dan stored procedures (Synapse / SQL Server)
  • Kenalan dengan konsep orkestrasi ETL (ADF atau sejenisnya)

Audience

  • Manajer teknologi dengan latar belakang engineering data
  • Data engineers yang beralih dari logika prosedural OLAP ke pola Lakehouse
  • Platform engineers yang bertanggung jawab atas adopsi Databricks
 35 Jam

Jumlah Peserta


Biaya per Peserta

Kursus Mendatang

Kategori Terkait