Kerangka Materi
- Pendahuluan
- Hadoop sejarah, konsep
- Ekosistem
- Distribusi
- Arsitektur tingkat tinggi
- Hadoop mitos
- Hadoop tantangan (hardware / software)
- Labs: diskusikan proyek dan masalah Anda Big Data
- Perencanaan dan instalasi
- Memilih perangkat lunak, Hadoop distribusi
- Ukuran kluster, merencanakan pertumbuhan
- Memilih hardware dan jaringan
- Topologi rak
- Instalasi
- Multi-tenancy
- Struktur direktori, log
- Benchmarking
- Labs: instal kluster, jalankan benchmark kinerja
- Operasi HDFS
- Konsep (horizontal scaling, replikasi, data locality, rack awareness)
- Node dan daemon (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitor kesehatan
- Administrasi berbasis baris perintah dan browser
- Menambahkan penyimpanan, mengganti drive yang rusak
- Labs: memahami HDFS command lines
- Penyisipan data
- Flume untuk log dan penyisipan data lain ke HDFS
- Sqoop untuk impor dari SQL database ke HDFS, serta ekspor kembali ke SQL
- Hadoop data warehousing dengan Hive
- Menyalin data antar kluster (distcp)
- Menggunakan S3 sebagai pelengkap HDFS
- Praktik terbaik dan arsitektur penyisipan data
- Labs: mengatur dan menggunakan Flume, Sqoop yang sama
- Operasi MapReduce dan administrasi
- Komputasi paralel sebelum mapreduce: bandingkan HPC vs Hadoop administrasi
- Muatan kluster MapReduce
- Node dan Daemon (JobTracker, TaskTracker)
- Pemandangan antarmuka pengguna MapReduce
- Konfigurasi MapReduce
- Konfigurasi pekerjaan
- Memaksimalkan MapReduce
- Mencegah kesalahan MR: apa yang harus Anda sampaikan kepada programmer Anda
- Labs: menjalankan contoh MapReduce
- YARN: arsitektur baru dan kemampuan baru
- Tujuan desain YARN dan arsitektur implementasi
- Aktor baru: ResourceManager, NodeManager, Application Master
- Menginstal YARN
- Penjadwalan pekerjaan di bawah YARN
- Labs: menganalisis penjadwalan pekerjaan
- Topik lanjutan
- Monitoring hardware
- Monitoring kluster
- Menambah dan menghapus server, memperbarui Hadoop
- Cadangan, pemulihan, dan perencanaan kelanjutan bisnis
- Oozie job workflows
- Hadoop high availability (HA)
- Hadoop Federasi
- Mempertahankan kluster Anda dengan Kerberos
- Labs: mengatur monitoring
- Jalur opsional
- Cloudera Manager untuk administrasi, monitoring, dan tugas rutin kluster; instalasi, penggunaan. Dalam jalur ini, semua latihan dan labs dilakukan dalam lingkungan distribusi Cloudera (CDH5)
- Ambari untuk administrasi, monitoring, dan tugas rutin kluster; instalasi, penggunaan. Dalam jalur ini, semua latihan dan labs dilakukan dalam manajer cluster Ambari dan Hortonworks Data Platform (HDP 2.0)
Persyaratan
- nyaman dengan administrasi sistem dasar Linux
- keterampilan scripting dasar
Pengetahuan tentang Hadoop dan Komputasi Terdistribusi tidak diperlukan, tetapi akan diperkenalkan dan dijelaskan dalam kursus ini.
Lingkungan Lab
Nol Instal : Tidak perlu menginstal perangkat lunak hadoop pada mesin siswa! Sebuah klaster Hadoop yang berfungsi akan disediakan untuk siswa.
Siswa membutuhkan hal-hal berikut
- klien SSH (Linux dan Mac sudah memiliki klien ssh, untuk Windows Putty direkomendasikan)
- browser untuk mengakses klaster. Kami merekomendasikan browser Firefox dengan ekstensi FoxyProxy terpasang
Testimoni (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Kursus - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Kursus - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kursus - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Kursus - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay