Kerangka Materi

  • Pendahuluan
    • Hadoop sejarah, konsep
    • Ekosistem
    • Distribusi
    • Arsitektur tingkat tinggi
    • Hadoop mitos
    • Hadoop tantangan (hardware / software)
    • Labs: diskusikan proyek dan masalah Anda Big Data
  • Perencanaan dan instalasi
    • Memilih perangkat lunak, Hadoop distribusi
    • Ukuran kluster, merencanakan pertumbuhan
    • Memilih hardware dan jaringan
    • Topologi rak
    • Instalasi
    • Multi-tenancy
    • Struktur direktori, log
    • Benchmarking
    • Labs: instal kluster, jalankan benchmark kinerja
  • Operasi HDFS
    • Konsep (horizontal scaling, replikasi, data locality, rack awareness)
    • Node dan daemon (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitor kesehatan
    • Administrasi berbasis baris perintah dan browser
    • Menambahkan penyimpanan, mengganti drive yang rusak
    • Labs: memahami HDFS command lines
  • Penyisipan data
    • Flume untuk log dan penyisipan data lain ke HDFS
    • Sqoop untuk impor dari SQL database ke HDFS, serta ekspor kembali ke SQL
    • Hadoop data warehousing dengan Hive
    • Menyalin data antar kluster (distcp)
    • Menggunakan S3 sebagai pelengkap HDFS
    • Praktik terbaik dan arsitektur penyisipan data
    • Labs: mengatur dan menggunakan Flume, Sqoop yang sama
  • Operasi MapReduce dan administrasi
    • Komputasi paralel sebelum mapreduce: bandingkan HPC vs Hadoop administrasi
    • Muatan kluster MapReduce
    • Node dan Daemon (JobTracker, TaskTracker)
    • Pemandangan antarmuka pengguna MapReduce
    • Konfigurasi MapReduce
    • Konfigurasi pekerjaan
    • Memaksimalkan MapReduce
    • Mencegah kesalahan MR: apa yang harus Anda sampaikan kepada programmer Anda
    • Labs: menjalankan contoh MapReduce
  • YARN: arsitektur baru dan kemampuan baru
    • Tujuan desain YARN dan arsitektur implementasi
    • Aktor baru: ResourceManager, NodeManager, Application Master
    • Menginstal YARN
    • Penjadwalan pekerjaan di bawah YARN
    • Labs: menganalisis penjadwalan pekerjaan
  • Topik lanjutan
    • Monitoring hardware
    • Monitoring kluster
    • Menambah dan menghapus server, memperbarui Hadoop
    • Cadangan, pemulihan, dan perencanaan kelanjutan bisnis
    • Oozie job workflows
    • Hadoop high availability (HA)
    • Hadoop Federasi
    • Mempertahankan kluster Anda dengan Kerberos
    • Labs: mengatur monitoring
  • Jalur opsional
    • Cloudera Manager untuk administrasi, monitoring, dan tugas rutin kluster; instalasi, penggunaan. Dalam jalur ini, semua latihan dan labs dilakukan dalam lingkungan distribusi Cloudera (CDH5)
    • Ambari untuk administrasi, monitoring, dan tugas rutin kluster; instalasi, penggunaan. Dalam jalur ini, semua latihan dan labs dilakukan dalam manajer cluster Ambari dan Hortonworks Data Platform (HDP 2.0)

Persyaratan

  • nyaman dengan administrasi sistem dasar Linux
  • keterampilan scripting dasar

Pengetahuan tentang Hadoop dan Komputasi Terdistribusi tidak diperlukan, tetapi akan diperkenalkan dan dijelaskan dalam kursus ini.

Lingkungan Lab

Nol Instal : Tidak perlu menginstal perangkat lunak hadoop pada mesin siswa! Sebuah klaster Hadoop yang berfungsi akan disediakan untuk siswa.

Siswa membutuhkan hal-hal berikut

  • klien SSH (Linux dan Mac sudah memiliki klien ssh, untuk Windows Putty direkomendasikan)
  • browser untuk mengakses klaster. Kami merekomendasikan browser Firefox dengan ekstensi FoxyProxy terpasang
 21 Jam

Jumlah Peserta


Biaya per Peserta

Testimoni (5)

Kursus Mendatang

Kategori Terkait