Kursus Pelatihan SMACK Stack untuk Data Science
SMACK adalah kumpulan software platform data, yaitu Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, dan Apache Kafka. Dengan menggunakan tumpukan SMACK, pengguna dapat membuat dan mengukur platform pengolahan data.
Pelatihan ini dibimbing instruktur, langsung (online atau tatap muka) ini ditujukan untuk ilmuwan data yang ingin menggunakan tumpukan SMACK untuk membangun platform pengolahan data untuk solusi data besar.
Di akhir pelatihan ini, peserta akan dapat:
- Menyelenggarakan arsitektur pipeline data untuk memproses data besar.
- Membangun infrastruktur cluster dengan Apache Mesos dan Docker.
- Menganalisis data dengan Spark dan Scala.
- Mengelola data tidak terstruktur dengan Apache Cassandra.
Format Kursus
- Diskusi dan pembicaraan interaktif.
- Banyak latihan dan praktik.
- Pelaksanaan langsung di lingkungan laboratorium.
Opsi Kustomisasi Kursus
- Untuk meminta pelatihan kustom untuk kursus ini, silakan hubungi kami untuk mengatur.
Kerangka Materi
Pendahuluan
Tinjauan SMACK Stack
- Apa itu Apache Spark? Fitur Apache Spark
- Apa itu Apache Mesos? Fitur Apache Mesos
- Apa itu Apache Akka? Fitur Apache Akka
- Apa itu Apache Cassandra? Fitur Apache Cassandra
- Apa itu Apache Kafka? Fitur Apache Kafka
Bahasa Scala
- Sintaks dan struktur Scala
- Aliran kontrol Scala
Persiapan Lingkungan Pengembangan
- Memasang dan mengkonfigurasi SMACK stack
- Memasang dan mengkonfigurasi Docker
Apache Akka
- Menggunakan actors
Apache Cassandra
- Membuat basis data untuk operasi pembacaan
- Bekerja dengan cadangan dan pemulihan
Konektor
- Membuat aliran
- Membangun aplikasi Akka
- Menyimpan data dengan Cassandra
- Meninjau konektor
Apache Kafka
- Bekerja dengan cluster
- Membuat, mempublikasikan, dan mengonsumsi pesan
Apache Mesos
- Mengalokasikan sumber daya
- Menjalankan cluster
- Bekerja dengan Apache Aurora dan Docker
- Menjalankan layanan dan tugas
- Menyebarkan Spark, Cassandra, dan Kafka pada Mesos
Apache Spark
- Mengelola aliran data
- Bekerja dengan RDD dan dataframes
- Melakukan analisis data
Penanganan Masalah
- Menangani kegagalan layanan dan kesalahan
Rangkuman dan Kesimpulan
Persyaratan
- Pemahaman tentang sistem pengolahan data
Penonton
- Data Scientists
Kursus Pelatihan Terbuka membutuhkan minimal 5 peserta.
Kursus Pelatihan SMACK Stack untuk Data Science - Booking
Kursus Pelatihan SMACK Stack untuk Data Science - Enquiry
SMACK Stack untuk Data Science - Permintaan Konsultasi
Permintaan Konsultasi
Testimoni (1)
very interactive...
Richard Langford
Kursus - SMACK Stack for Data Science
Kursus Mendatang
Kursus Terkait
Kecerdasan Buatan - hal yang paling banyak diterapkan - Data Analysis + AI Terdistribusi + NLP
21 JamKurs ini ditujukan untuk pengembang dan ilmuwan data yang ingin memahami dan menerapkan kecerdasan buatan dalam aplikasi mereka. Fokus khusus diberikan pada analisis data, kecerdasan buatan terdistribusi, dan pemrosesan bahasa alami.
Anaconda Ecosystem for Data Scientists
14 JamPelatihan langsung yang dipimpin instruktur di Indonesia (online atau di tempat) ini ditujukan untuk ilmuwan data yang ingin menggunakan ekosistem Anaconda untuk menangkap, mengelola, dan menyebarkan paket dan alur kerja analisis data dalam satu platform.
Pada akhir pelatihan ini, peserta akan dapat:
- Instal dan konfigurasikan Anaconda komponen dan pustaka.
- Memahami konsep inti, fitur, dan manfaat Anaconda.
- Kelola paket, lingkungan, dan saluran menggunakan Anaconda Navigator.
- Gunakan paket Conda, R, dan Python untuk ilmu data dan pembelajaran mesin.
- Ketahui beberapa kasus penggunaan praktis dan teknik untuk mengelola berbagai lingkungan data.
Big Data Business Intelligence untuk Telecom dan Communication Service Providers
35 JamPandangan Umum
Provider layanan komunikasi (CSP) mengalami tekanan untuk mengurangi biaya dan memaksimalkan rata-rata pendapatan per pengguna (ARPU), sambil memastikan pengalaman pelanggan yang luar biasa, namun volume data terus bertambah. Lalu lintas data seluler global akan tumbuh dengan tingkat pertumbuhan tahunan rata-rata (CAGR) sebesar 78 persen hingga tahun 2016, mencapai 10,8 exabyte per bulan.
Sementara itu, CSPs menghasilkan volume data yang besar, termasuk catatan detail panggilan (CDR), data jaringan dan data pelanggan. Perusahaan yang memanfaatkan data ini secara penuh mendapatkan keunggulan kompetitif. Menurut survei terbaru oleh The Economist Intelligence Unit, perusahaan yang menggunakan pengambilan keputusan yang didukung data menikmati peningkatan produktivitas sebesar 5-6%. Namun, 53% perusahaan hanya memanfaatkan setengah dari data berharganya, dan sepertiga dari responden menegaskan bahwa jumlah data yang berguna tidak terpakai. Volume data sangat besar sehingga analisis manual mustahil, dan sebagian besar sistem perangkat lunak warisan tidak bisa menyesuaikan diri, sehingga data berharga dibuang atau diabaikan.
Dengan perangkat lunak Big Data & Analytics yang cepat dan dapat di skalakan, CSPs dapat memanfaatkan semua data mereka untuk pengambilan keputusan yang lebih baik dalam waktu yang lebih singkat. Berbagai produk dan teknik Big Data menyediakan platform perangkat lunak yang lengkap untuk mengumpulkan, mempersiapkan, menganalisis, dan menyajikan wawasan dari data besar. Bidang aplikasi termasuk pemantauan kinerja jaringan, deteksi penipuan, deteksi pelanggan yang beralih, dan analisis risiko kredit. Produk Big Data & Analytics dapat di skalakan untuk mengolah terabytes data, namun pengimplementasian alat-alat ini memerlukan sistem basis data berbasis cloud baru seperti Hadoop atau pengolah komputer paralel skala besar (KPU, dll.).
Kursus ini tentang Big Data BI untuk Telco mencakup semua bidang baru yang sedang muncul di mana CSPs berinvestasi untuk meningkatkan produktivitas dan membuka aliran pendapatan bisnis baru. Kursus ini akan memberikan gambaran 360 derajat lengkap tentang Big Data BI di Telco sehingga pengambil keputusan dan manajer dapat memiliki gambaran yang sangat luas dan komprehensif tentang kemungkinan Big Data BI di Telco untuk meningkatkan produktivitas dan pendapatan.
Tujuan Kursus
Tujuan utama dari kursus ini adalah untuk memperkenalkan teknologi baru Big Data business intelligence di empat sektor Bisnis Telekomunikasi (Marketing/Penjualan, Operasi Jaringan, Operasi Keuangan, dan Manajemen Hubungan Pelanggan). Mahasiswa akan diperkenalkan kepada:
- Pendahuluan Big Data—apa itu 4Vs (volume, kecepatan, variasi, dan keakuratan) dalam Big Data—pembuatan, ekstraksi, dan manajemen dari perspektif Telco
- Bagaimana analitik Big Data berbeda dari analitik data warisan
- Penjabaran Big Data di dalam perusahaan—perspektif Telco
- Pendahuluan ekosistem Hadoop—kenalan dengan semua alat Hadoop seperti Hive, Pig, SPARC—ketika dan bagaimana digunakan untuk menyelesaikan masalah Big Data
- Bagaimana Big Data diekstrak untuk dianalisis oleh alat analitik—bagaimana analisis bisnis dapat mengurangi kesulitan pengumpulan dan analisis data melalui pendekatan dashboard Hadoop terintegrasi
- Pendahuluan dasar tentang analisis insight, analisis visualisasi, dan analisis prediktif untuk Telco
- Analisis churn pelanggan dan Big Data—bagaimana analitik Big Data dapat mengurangi churn pelanggan dan kepuasan pelanggan yang tidak memuaskan di Telco—kasus studi
- Analisis kegagalan jaringan dan kegagalan layanan dari meta-data jaringan dan IPDR
- Analisis keuangan—penipuan, pengeluaran, dan perhitungan ROI dari data penjualan dan operasional
- Masalah pengambilan pelanggan—marketing target, segmentasi pelanggan, dan penjualan silang dari data penjualan
- Pendahuluan dan ringkasan semua produk analitik Big Data dan di mana mereka masuk dalam ruang analitik Telco
- Kesimpulan—bagaimana mengikuti pendekatan bertahap untuk memasukkan Big Data Business Intelligence di organisasi Anda
Penonton Sasar
- Manajer operasi jaringan, manajer keuangan, manajer CRM, dan manajer IT tingkat atas di kantor CIO Telco.
- Analis bisnis di Telco
- Manajer/analis kantor CFO
- Manajer operasional
- Manajer QA
Programme Ilmu Data
245 JamLedakan informasi dan data di dunia saat ini tak terbandingkan, kemampuan kita untuk inovasi dan mendorong batas-batas kemungkinan semakin cepat dari sebelumnya. Peran Data Scientist adalah salah satu keterampilan paling dicari di industri saat ini.
Kami menawarkan lebih dari sekedar belajar melalui teori; kami menyampaikan keterampilan praktis dan terpasar yang menutupi celah antara dunia akademisi dan permintaan industri.
Kurikulum 7 minggu ini dapat disesuaikan dengan kebutuhan industri Anda tertentu, silakan hubungi kami untuk informasi lebih lanjut atau kunjungi website Institute Nobleprog.
Peserta:
Program ini ditujukan bagi lulusan tingkat sarjana serta siapa saja yang memiliki keterampilan persyaratan yang diperlukan yang akan ditentukan melalui penilaian dan wawancara.
Pengiriman:
Pengiriman kursus akan mencakup campuran Pelatihan Kelas Tatap Muka Berbimbing Dosen dan Pelatihan Online Berbimbing Dosen; biasanya minggu pertama akan 'dibimbing kelas', minggu 2 - 6 'kelas maya' dan minggu 7 kembali ke 'dibimbing kelas'.
Ilmu Data untuk Analisis Big Data
35 JamBig data adalah data set yang sangat besar dan rumit sehingga perangkat lunak aplikasi pemrosesan data tradisional tidak memadai untuk mengatasi mereka. Tantangan big data meliputi penangkapan data, penyimpanan data, analisis data, pencarian, pembagian, transfer, visualisasi, penelitian, pembaruan dan privasi informasi.
Pengenalan Komputasi Graf
28 JamDalam pelatihan langsung yang dipandu instruktur di Indonesia ini, peserta akan mempelajari tentang penawaran teknologi dan pendekatan implementasi untuk memproses data grafik. Tujuannya adalah untuk mengidentifikasi objek dunia nyata, karakteristik dan hubungannya, kemudian memodelkan hubungan ini dan memprosesnya sebagai data menggunakan pendekatan Graph Computing (juga dikenal sebagai Analisis Grafik). Kami mulai dengan ikhtisar umum dan mempersempitnya pada alat tertentu saat kami melangkah melalui serangkaian studi kasus, latihan langsung, dan penerapan langsung.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami bagaimana data grafik dipertahankan dan dilintasi.
- Pilih kerangka kerja terbaik untuk tugas tertentu (dari basis data grafik hingga kerangka kerja pemrosesan batch.)
- Terapkan Hadoop, Spark, GraphX dan Pregel untuk melakukan komputasi grafik di banyak mesin secara paralel.
- Lihat masalah big data dunia nyata dalam bentuk grafik, proses, dan lintasan.
Jupyter untuk Tim Data Science
7 JamPelatihan berorientasi instruktur langsung ini di Indonesia (daring atau tatap muka) memperkenalkan ide pengembangan kolaboratif dalam sains data dan mendemonstrasikan bagaimana menggunakan Jupyter untuk melacak dan berpartisipasi sebagai tim dalam "hidup komputasional". Pelatihan ini membimbing peserta melalui pembuatan proyek sains data contoh yang didasarkan pada ekosistem Jupyter.
Selesai pelatihan ini, peserta akan dapat:
- Instal dan konfigurasikan Jupyter, termasuk pembuatan dan integrasi repositori tim di Git.
- Menggunakan fitur-fitur Jupyter seperti ekstensi, widget interaktif, mode multiuser, dan lainnya untuk memungkinkan kolaborasi proyek.
- Membuat, berbagi, dan mengorganisir Jupyter Notebook dengan anggota tim.
- Memilih dari Scala, Python, R, untuk menulis dan menjalankan kode terhadap sistem data besar seperti Apache Spark, semua melalui antarmuka Jupyter.
Kaggle
14 JamPelatihan langsung yang dipimpin instruktur di Indonesia (online atau di tempat) ini ditujukan untuk ilmuwan data dan pengembang yang ingin belajar dan membangun karier mereka di Data Science menggunakan Kaggle.
Pada akhir pelatihan ini, peserta akan dapat:
- Pelajari tentang ilmu data dan pembelajaran mesin.
- Jelajahi analitik data.
- Pelajari tentang Kaggle dan cara kerjanya.
MATLAB Dasar, Ilmu Data, dan Penggenerasian Laporan
35 JamPada bagian pertama pelatihan ini, kami membahas dasar-dasar MATLAB dan fungsinya sebagai bahasa dan platform. Termasuk dalam diskusi ini adalah pengenalan MATLAB sintaksis, array dan matriks, visualisasi data, pengembangan skrip, dan prinsip-prinsip berorientasi objek.
Di bagian kedua, kami mendemonstrasikan cara menggunakan MATLAB untuk penambangan data, pembelajaran mesin, dan analisis prediktif. Untuk memberikan peserta perspektif yang jelas dan praktis tentang pendekatan dan kekuatan MATLAB, kami membuat perbandingan antara penggunaan MATLAB dan penggunaan alat lain seperti spreadsheet, C, C++, dan Visual Basic.
Pada bagian ketiga pelatihan, peserta belajar bagaimana menyederhanakan pekerjaan mereka dengan mengotomatiskan pemrosesan data dan pembuatan laporan.
Sepanjang kursus, peserta akan mempraktikkan ide-ide yang dipelajari melalui latihan langsung di lingkungan laboratorium. Di akhir pelatihan, peserta akan memiliki pemahaman menyeluruh tentang kemampuan MATLAB dan akan dapat menggunakannya untuk memecahkan masalah ilmu data di dunia nyata serta menyederhanakan pekerjaan mereka melalui otomatisasi.
Penilaian akan dilakukan sepanjang kursus untuk mengukur kemajuan.
Format Kursus
- Kursus mencakup latihan teoretis dan praktis, termasuk diskusi kasus, pemeriksaan kode sampel, dan implementasi langsung.
Catatan
- Sesi latihan akan didasarkan pada contoh templat laporan data yang telah diatur sebelumnya. Jika Anda memiliki persyaratan khusus, silakan hubungi kami untuk mengaturnya.
Mempercepat Alur Kerja Python Pandas dengan Modin
14 JamPelatihan langsung yang dipimpin instruktur di Indonesia (online atau di tempat) ini ditujukan untuk ilmuwan data dan pengembang yang ingin menggunakan Modin untuk membangun dan menerapkan komputasi paralel dengan Pandas untuk analisis data yang lebih cepat.
Pada akhir pelatihan ini, peserta akan dapat:
- Siapkan lingkungan yang diperlukan untuk mulai mengembangkan Pandas alur kerja berskala dengan Modin.
- Memahami fitur, arsitektur, dan keuntungan Modin.
- Ketahui perbedaan antara Modin, Dask, dan Ray.
- Lakukan operasi Pandas lebih cepat dengan Modin.
- Terapkan seluruh API dan fungsi Pandas.
Python dan Spark untuk Big Data di Perbankan (PySpark)
14 JamPython adalah bahasa pemrograman tingkat tinggi yang terkenal karena sintaksisnya yang jelas dan keterbacaan kode. Spark adalah mesin pemrosesan data yang digunakan dalam kueri, analisis, dan transformasi data besar. PySpark memungkinkan pengguna untuk menghubungkan Spark dengan Python.
Target Pemirsa: Profesional tingkat menengah di industri perbankan yang familiar dengan Python dan Spark, yang ingin memperdalam keterampilan mereka dalam pemrosesan big data dan pembelajaran mesin.
GPU Data Science dengan NVIDIA RAPIDS
14 JamPelatihan langsung yang dipimpin instruktur di Indonesia (online atau di lokasi) ditujukan untuk ilmuwan data dan pengembang yang ingin menggunakan RAPIDS untuk membangun alur data, alur kerja, dan visualisasi yang dipercepat GPU, dengan menerapkan algoritme pembelajaran mesin, seperti XGBoost, cuML, dll.
Pada akhir pelatihan ini, peserta akan mampu:
- Siapkan lingkungan pengembangan yang diperlukan untuk membangun model data dengan NVIDIA RAPIDS.
- Memahami fitur, komponen, dan kelebihan RAPIDS.
- Manfaatkan GPU untuk mempercepat jalur data dan analitik ujung ke ujung.
- Menerapkan persiapan data yang dipercepat GPU dan ETL dengan cuDF dan Apache Arrow.
- Pelajari cara melakukan tugas pembelajaran mesin dengan algoritma XGBoost dan cuML.
- Bangun visualisasi data dan jalankan analisis grafik dengan cuXfilter dan cuGraph.
Python dan Spark untuk Big Data (PySpark)
21 JamDalam pelatihan langsung yang dipimpin instruktur di Indonesia ini, peserta akan mempelajari cara menggunakan Python dan Spark bersama-sama untuk menganalisis data besar saat mereka mengerjakan latihan langsung.
Pada akhir pelatihan ini, peserta akan mampu:
- Pelajari cara menggunakan Spark dengan Python untuk menganalisis Big Data.
- Kerjakan latihan yang meniru kasus dunia nyata.
- Gunakan alat dan teknik yang berbeda untuk analisis data besar menggunakan PySpark.
Apache Spark MLlib
35 JamMLlib adalah pustaka pemrosesan machine learning (ML) Spark. Tujuannya adalah untuk membuat machine learning praktis yang dapat diukur dan mudah. Ini terdiri dari algoritma belajar umum dan utilitas, termasuk klasifikasi, regresi, clustering, filtering kolaboratif, pengurangan dimensi, serta primer optimasi tingkat rendah dan API pipeline tingkat tinggi.
Ia terbagi menjadi dua paket:
-
spark.mllib berisi API asli yang dibangun di atas RDDs.
-
spark.ml menyediakan API tingkat tinggi yang dibangun di atas DataFrames untuk memkonstruksi pipeline ML.
Peserta
Kursus ini ditujukan untuk insinyur dan pengembang yang ingin menggunakan pustaka Machine Learning yang terintegrasi dalam Apache Spark
Stratio: Modul Rocket dan Intelligence dengan PySpark
14 JamStratio adalah platform yang berorientasi data, yang mengintegrasikan big data, AI, dan governance menjadi satu solusi. Modul Rocket dan Intelligence-nya memungkinkan penjelajahan data cepat, transformasi, dan analitik lanjutan dalam lingkungan enterprise.
Pelatihan langsung (daring atau tatap muka) ini ditujukan untuk profesional data tingkat menengah yang ingin menggunakan modul Rocket dan Intelligence di Stratio dengan efektif bersama PySpark, fokus pada struktur pengulangan, fungsi definisi pengguna, dan logika data lanjutan.
Pada akhir pelatihan ini, peserta akan dapat:
- Menavigasi dan bekerja dalam platform Stratio menggunakan modul Rocket dan Intelligence.
- Mengaplikasikan PySpark dalam konteks penyerapan data, transformasi, dan analisis.
- Menggunakan loop dan logika kondisional untuk mengontrol alur kerja data dan tugas pemrosesan fitur.
- Membuat dan mengelola fungsi definisi pengguna (UDFs) untuk operasi data yang dapat didaur ulang dalam PySpark.
Format Kursus
- Diskusi dan kuliah interaktif.
- Banyak latihan dan praktik.
- Implementasi hands-on dalam lingkungan laboratorium langsung.
Opsi Penyesuaian Kursus
- Untuk meminta pelatihan yang disesuaikan untuk kursus ini, silakan hubungi kami untuk mengatur.