Kerangka Materi
-
Pendahuluan Scala
- Pendahuluan singkat tentang Scala
- Labs: Memahami Scala
-
Dasar Spark
- Latar belakang dan sejarah
- Spark dan Hadoop
- Konsep dan arsitektur Spark
- Ekosistem Spark (core, spark sql, mlib, streaming)
- Labs: Memasang dan menjalankan Spark
-
Pertama Kali Melihat Spark
- Menjalankan Spark dalam mode lokal
- Antarmuka web Spark
- Shell Spark
- Menganalisis dataset – bagian 1
- Memeriksa RDDs
- Labs: Penjelajahan shell Spark
-
RDDs
- Konsep RDDs
- Partisi
- Operasi / transformasi RDD
- Tipe RDD
- RDD pasangan kunci-nilai
- MapReduce di RDD
- Penyimpanan dalam memori dan keberlanjutan
- Labs: Membuat dan memeriksa RDDs; Memperdalam RDDs
-
Pengembangan API Spark
- Pendahuluan tentang API Spark / API RDD
- Mengirim program pertama ke Spark
- Pembacaan kesalahan / pengaturan log
- Properti konfigurasi
- Labs: Pengembangan di API Spark, Mengirim tugas
-
Spark SQL
- Dukungan SQL di Spark
- Dataframes
- Mendefinisikan tabel dan mengimpor dataset
- Menelusuri dataframes dengan SQL
- Format penyimpanan: JSON / Parquet
- Labs: Membuat dan menelusuri dataframes; Menevaluasi format data
-
MLlib
- Pendahuluan MLib
- Algoritma MLib
- Labs: Menulis aplikasi MLib
-
GraphX
- Tinjauan pustaka GraphX
- API GraphX
- Labs: Memproses data grafis dengan Spark
-
Spark Streaming
- Tinjauan streaming
- Menevaluasi platform streaming
- Operasi streaming
- Operasi jendela geser
- Labs: Menulis aplikasi streaming Spark
-
Spark dan Hadoop
- Pendahuluan Hadoop (HDFS / YARN)
- Arsitektur Hadoop + Spark
- Menjalankan Spark di Hadoop YARN
- Memproses file HDFS dengan Spark
-
Kinerja dan Penyesuaian Spark
- Variabel siaran
- Akumulator
- Pengelolaan memori dan penyimpanan dalam memori
-
Operasi Spark
- Menyebarkan Spark dalam produksi
- Contoh templat penyebaran
- Konfigurasi
- Pengawasan
- Penyelesaian masalah
Persyaratan
PRASYARAT
Penyelesaian dengan salah satu bahasa Java / Scala / Python (lab kita dalam Scala dan Python)
Pengertian dasar lingkungan pengembangan Linux (navigasi baris perintah / mengedit file menggunakan VI atau nano)
Testimoni (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
Kursus - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Kursus - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Kursus - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Kursus - Spark for Developers
We know a lot more about the whole environment.
John Kidd
Kursus - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.