A Practical Introduction to Stream Processing Training Course
Stream Processing refers to the real-time processing of "data in motion", that is, performing computations on data as it is being received. Such data is read as continuous streams from data sources such as sensor events, website user activity, financial trades, credit card swipes, click streams, etc. Stream Processing frameworks are able to read large volumes of incoming data and provide valuable insights almost instantaneously.
In this instructor-led, live training (onsite or remote), participants will learn how to set up and integrate different Stream Processing frameworks with existing big data storage systems and related software applications and microservices.
By the end of this training, participants will be able to:
- Install and configure different Stream Processing frameworks, such as Spark Streaming and Kafka Streaming.
- Understand and select the most appropriate framework for the job.
- Process of data continuously, concurrently, and in a record-by-record fashion.
- Integrate Stream Processing solutions with existing databases, data warehouses, data lakes, etc.
- Integrate the most appropriate stream processing library with enterprise applications and microservices.
Audience
- Developers
- Software architects
Format of the Course
- Part lecture, part discussion, exercises and heavy hands-on practice
Notes
- To request a customized training for this course, please contact us to arrange.
Course Outline
Introduction
- Stream processing vs batch processing
- Analytics-focused stream processing
Overview Frameworks and Programming Languages
- Spark Streaming (Scala)
- Kafka Streaming (Java)
- Flink
- Storm
- Comparison of Features and Strengths of Each Framework
Overview of Data Sources
- Live data as a series of events over time
- Historical data sources
Deployment Options
- In the cloud (AWS, etc.)
- On premise (private cloud, etc.)
Getting Started
- Setting up the Development Environment
- Installing and Configuring
- Assessing Your Data Analysis Needs
Operating a Streaming Framework
- Integrating the Streaming Framework with Big Data Tools
- Event Stream Processing (ESP) vs Complex Event Processing (CEP)
- Transforming the Input Data
- Inspecting the Output Data
- Integrating the Stream Processing Framework with Existing Applications and Microservices
Troubleshooting
Summary and Conclusion
Requirements
- Programming experience in any language
- An understanding of Big Data concepts (Hadoop, etc.)
Open Training Courses require 5+ participants.
A Practical Introduction to Stream Processing Training Course - Booking
A Practical Introduction to Stream Processing Training Course - Enquiry
A Practical Introduction to Stream Processing - Consultancy Enquiry
Consultancy Enquiry
Testimonials (1)
Sufficient hands on, trainer is knowledgable
Chris Tan
Course - A Practical Introduction to Stream Processing
Upcoming Courses (Minimal 5 peserta)
Related Courses
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HoursKursus ini ditujukan bagi pengembang dan ilmuwan data yang ingin memahami dan menerapkan kecerdasan buatan dalam aplikasi mereka. Fokus khusus adalah pada analisis data, kecerdasan buatan terdistribusi, dan pemrosesan bahasa alami.
Apache Kafka Connect
7 HoursPelatihan langsung yang dipimpin instruktur di Indonesia (daring atau tatap muka) ini ditujukan bagi pengembang yang ingin mengintegrasikan Apache Kafka dengan basis data dan aplikasi yang sudah ada untuk pemrosesan, analisis, dll.
Selesai pelatihan ini, peserta akan dapat:
- Menggunakan Kafka Connect untuk memasukkan jumlah besar data dari basis data ke topik-topik Kafka.
- Memasukkan data log yang dihasilkan oleh server aplikasi ke topik-topik Kafka.
- Make setiap data yang dikumpulkan tersedia untuk pemrosesan stream.
- Mengekspor data dari topik-topik Kafka ke sistem sekunder untuk penyimpanan dan analisis.
Unified Batch and Stream Processing with Apache Beam
14 HoursApache Beam adalah model pemrograman sumber terbuka dan terpadu untuk mendefinisikan dan menjalankan alur pemrosesan data paralel. Kekuatannya terletak pada kemampuannya untuk menjalankan alur batch dan streaming, dengan eksekusi yang dilakukan oleh salah satu back-end pemrosesan terdistribusi yang didukung Beam: Apache Apex, Apache Flink, Apache Spark, dan Google Cloud Dataflow. Apache Beam berguna untuk tugas ETL (Ekstrak, Transformasi, dan Muat) seperti memindahkan data antara media penyimpanan dan sumber data yang berbeda, mengubah data ke dalam format yang lebih diinginkan, dan memuat data ke sistem baru.
Dalam pelatihan langsung yang dipandu instruktur (di tempat atau jarak jauh) ini, peserta akan mempelajari cara mengimplementasikan Apache Beam SDK dalam aplikasi Java atau Python yang mendefinisikan jalur pemrosesan data untuk menguraikan kumpulan data besar menjadi potongan-potongan yang lebih kecil untuk pemrosesan paralel yang independen.
Pada akhir pelatihan ini, peserta akan dapat:
- Instal dan konfigurasikan Apache Beam.
- Gunakan model pemrograman tunggal untuk melakukan pemrosesan batch dan aliran dalam aplikasi Java atau Python mereka.
- Menjalankan jalur pipa di beberapa lingkungan.
Format Kursus
- Sebagian kuliah, sebagian diskusi, latihan dan praktik langsung yang berat
Catatan
- Kursus ini akan tersedia Scala di masa mendatang. Silakan hubungi kami untuk mengaturnya.
Building Kafka Solutions with Confluent
14 HoursInstruktur ini akan memberikan pelatihan langsung (daring atau tatap muka) yang ditujukan bagi insinyur yang ingin menggunakan Confluent (sebuah distribusi Kafka) untuk membangun dan mengelola platform pengolahan data real-time untuk aplikasi mereka.
Selesai mengikuti pelatihan ini, peserta akan dapat:
- Instal dan konfigurasi Confluent Platform.
- Menggunakan alat dan layanan manajemen Confluent untuk menjalankan Kafka dengan lebih mudah.
- Menyimpan dan memproses data stream yang masuk.
- Mengeksekusi dan mengelola kluster Kafka secara optimal.
- Menyekuritasi data stream.
Format Kursus
- Pembahasan interaktif dan diskusi.
- Banyak latihan dan praktek.
- Implementasi praktis dalam lingkungan laboratorium langsung.
Opsi Kustomisasi Kursus
- Kursus ini didasarkan pada versi open source Confluent: Confluent Open Source.
- Untuk meminta pelatihan yang disesuaikan untuk kursus ini, silakan hubungi kami untuk mengatur.
Apache Flink Fundamentals
28 HoursPelatihan langsung yang dipandu instruktur di Indonesia (online atau di tempat) ini memperkenalkan prinsip dan pendekatan di balik pemrosesan data aliran dan batch terdistribusi, dan memandu peserta melalui pembuatan aplikasi streaming data waktu nyata di Apache Flink.
Pada akhir pelatihan ini, peserta akan dapat:
- Siapkan lingkungan untuk mengembangkan aplikasi analisis data.
- Pahami cara kerja pustaka pemrosesan grafik Apache Flink (Gelly).
- Mengemas, menjalankan, dan memantau aplikasi streaming data berbasis Flink yang toleran terhadap kesalahan.
- Kelola beban kerja yang beragam.
- Melakukan analisis tingkat lanjut.
- Siapkan klaster Flink multi-simpul.
- Mengukur dan mengoptimalkan kinerja.
- Integrasikan Flink dengan berbagai sistem Big Data.
- Bandingkan kemampuan Flink dengan kerangka kerja pemrosesan data besar lainnya.
Introduction to Graph Computing
28 HoursDalam pelatihan langsung yang dipandu instruktur di Indonesia ini, peserta akan mempelajari tentang penawaran teknologi dan pendekatan implementasi untuk memproses data grafik. Tujuannya adalah untuk mengidentifikasi objek dunia nyata, karakteristik dan hubungannya, kemudian memodelkan hubungan ini dan memprosesnya sebagai data menggunakan pendekatan Graph Computing (juga dikenal sebagai Analisis Grafik). Kami mulai dengan ikhtisar umum dan mempersempitnya pada alat tertentu saat kami melangkah melalui serangkaian studi kasus, latihan langsung, dan penerapan langsung.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami bagaimana data grafik dipertahankan dan dilintasi.
- Pilih kerangka kerja terbaik untuk tugas tertentu (dari basis data grafik hingga kerangka kerja pemrosesan batch.)
- Terapkan Hadoop, Spark, GraphX dan Pregel untuk melakukan komputasi grafik di banyak mesin secara paralel.
- Lihat masalah big data dunia nyata dalam bentuk grafik, proses, dan lintasan.
Apache Kafka for Python Programmers
7 HoursPelatihan langsung yang dipimpin instruktur di Indonesia (online atau di lokasi) ditujukan untuk teknisi data, ilmuwan data, dan pemrogram yang ingin menggunakan fitur Apache Kafka dalam streaming data dengan Python.
Di akhir pelatihan ini, peserta akan dapat menggunakan Apache Kafka untuk memantau dan mengelola kondisi aliran data berkelanjutan menggunakan pemrograman Python.
Stream Processing with Kafka Streams
7 HoursKafka Streams adalah perpustakaan sisi klien untuk membangun aplikasi dan mikroservis yang datanya dijalankan ke dan dari sistem pesan Kafka. Tradisionalnya, Apache Kafka telah bergantung pada Apache Spark atau Apache Storm untuk memproses data antara produsen pesan dan konsumen. Dengan memanggil API Kafka Streams dari dalam aplikasi, data dapat diproses langsung di dalam Kafka, menghindari kebutuhan untuk mengirimkan data ke kluster terpisah untuk diproses.
Dalam pelatihan berorientasi instruktur ini, peserta akan belajar bagaimana mengintegrasikan Kafka Streams ke dalam sejumlah aplikasi contoh Java yang memindahkan data ke dan dari Apache Kafka untuk pemrosesan stream.
Selesai pelatihan ini, peserta akan dapat:
- Mengerti fitur dan keunggulan Kafka Streams dibandingkan kerangka kerja pemrosesan stream lainnya
- Mempersiapkan data stream langsung dalam kluster Kafka
- Menulis aplikasi atau mikroservis Java atau Scala yang terintegrasi dengan Kafka dan Kafka Streams
- Menulis kode singkat yang mengubah topik Kafka input menjadi topik Kafka output
- Membangun, memaketkan, dan mendeploy aplikasi
Audience
- Pengembang
Format kursus
- Berupa ceramah, diskusi, latihan dan praktek langsung yang intensif
Catatan
- Untuk meminta pelatihan kustom untuk kursus ini, silakan hubungi kami untuk mengatur
Confluent KSQL
7 HoursPelatihan langsung yang dipimpin instruktur di Indonesia (online atau di tempat) ini ditujukan untuk pengembang yang ingin menerapkan pemrosesan aliran Apache Kafka tanpa menulis kode.
Pada akhir pelatihan ini, peserta akan dapat:
- Instal dan konfigurasikan Confluent KSQL.
- Siapkan alur pemrosesan aliran hanya menggunakan perintah SQL (tanpa pengkodean Java atau Python).
- Melakukan penyaringan data, transformasi, agregasi, gabungan, windowing, dan sesiisasi sepenuhnya di SQL.
- Rancang dan terapkan kueri interaktif dan berkelanjutan untuk streaming ETL dan analisis waktu nyata.
Apache NiFi for Administrators
21 HoursDalam pelatihan langsung yang dipandu instruktur di Indonesia (di tempat atau jarak jauh), peserta akan mempelajari cara menerapkan dan mengelola Apache NiFi di lingkungan lab langsung.
Pada akhir pelatihan ini, peserta akan dapat:
- Instal dan konfigurasikan Apachi NiFi.
- Sumber, transformasi, dan kelola data dari sumber data yang berbeda dan terdistribusi, termasuk basis data dan danau data besar.
- Mengotomatiskan aliran data.
- Aktifkan analitik streaming.
- Terapkan berbagai pendekatan untuk penyerapan data.
- Transformasi Big Data menjadi wawasan bisnis.
Apache NiFi for Developers
7 HoursDalam pelatihan langsung yang dipandu instruktur di Indonesia ini, peserta akan mempelajari dasar-dasar pemrograman berbasis aliran saat mereka mengembangkan sejumlah ekstensi demo, komponen, dan prosesor menggunakan Apache NiFi.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami arsitektur NiFi dan konsep aliran data.
- Mengembangkan ekstensi menggunakan NiFi dan API pihak ketiga.
- Mengembangkan prosesor Apache Nifi mereka sendiri.
- Menyerap dan memproses data secara real-time dari berbagai format file dan sumber data yang berbeda dan tidak umum.
Python and Spark for Big Data for Banking (PySpark)
14 HoursPython adalah bahasa pemrograman tingkat tinggi yang terkenal karena sintaksisnya yang jelas dan keterbacaan kode. Spark adalah mesin pemrosesan data yang digunakan dalam kueri, analisis, dan transformasi data besar. PySpark memungkinkan pengguna untuk menghubungkan Spark dengan Python.
Target Pemirsa: Profesional tingkat menengah di industri perbankan yang familiar dengan Python dan Spark, yang ingin memperdalam keterampilan mereka dalam pemrosesan big data dan pembelajaran mesin.
Python and Spark for Big Data (PySpark)
21 HoursDalam pelatihan langsung yang dipimpin instruktur di Indonesia ini, peserta akan mempelajari cara menggunakan Python dan Spark bersama-sama untuk menganalisis data besar saat mereka mengerjakan latihan langsung.
Pada akhir pelatihan ini, peserta akan mampu:
- Pelajari cara menggunakan Spark dengan Python untuk menganalisis Big Data.
- Kerjakan latihan yang meniru kasus dunia nyata.
- Gunakan alat dan teknik yang berbeda untuk analisis data besar menggunakan PySpark.
Spark Streaming with Python and Kafka
7 HoursPelatihan langsung yang dipimpin instruktur di Indonesia (online atau di lokasi) ditujukan untuk teknisi data, ilmuwan data, dan pemrogram yang ingin menggunakan fitur Spark Streaming dalam memproses dan menganalisis data waktu nyata.
Di akhir pelatihan ini, peserta akan dapat menggunakan Spark Streaming untuk memproses aliran data langsung untuk digunakan dalam database, sistem file, dan dasbor langsung.
Apache Spark MLlib
35 HoursMLlib is Spark’s machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. It consists of common learning algorithms and utilities, including classification, regression, clustering, collaborative filtering, dimensionality reduction, as well as lower-level optimization primitives and higher-level pipeline APIs.
It divides into two packages:
-
spark.mllib contains the original API built on top of RDDs.
-
spark.ml provides higher-level API built on top of DataFrames for constructing ML pipelines.
Audience
This course is directed at engineers and developers seeking to utilize a built in Machine Library for Apache Spark