Kerangka Materi

Pengenalan Ilmu Data untuk Analisis Big Data

  • Ringkasan Ilmu Data
  • Ringkasan Big Data
  • Struktur Data
  • Penggerak dan kompleksitas Big Data
  • Ekosistem Big Data dan pendekatan baru untuk analisis
  • Teknologi kunci dalam Big Data
  • Proses dan masalah pemrosesan data
    • Penambangan Pola Asosiasi
    • Pengelompokan Data
    • Deteksi Anomali
    • Kluster Data

Pengenalan Siklus Hidup Analisis Data

  • Penemuan
  • Persiapan Data
  • Perencanaan Model
  • Pembuatan Model
  • Presentasi/Komunikasi Hasil
  • Operasionalisasi
  • Latihan: Studi Kasus

Dari titik ini sebagian besar waktu pelatihan (80%) akan dihabiskan pada contoh dan latihan dalam R dan teknologi Big Data terkait.

Memulai dengan R

  • Menginstal R dan Rstudio
  • Fitur bahasa R
  • Objek dalam R
  • Data dalam R
  • Manipulasi Data
  • Masalah Big Data
  • Latihan

Memulai dengan Hadoop

  • Menginstal Hadoop
  • Memahami mode Hadoop
  • HDFS
  • Arsitektur MapReduce
  • Tinjauan proyek terkait Hadoop
  • Menulis program dalam Hadoop MapReduce
  • Latihan

Mengintegrasikan R dan Hadoop dengan RHadoop

  • Komponen RHadoop
  • Menginstal RHadoop dan menghubungkan dengan Hadoop
  • Arsitektur RHadoop
  • Hadoop streaming dengan R
  • Penyelesaian masalah analisis data dengan RHadoop
  • Latihan

Pemrosesan dan Persiapan Data

  • Langkah persiapan data
  • Ekstraksi fitur
  • Pembersihan data
  • Integrasi dan transformasi data
  • Reduksi data – sampel, pemilihan subset fitur,
  • Reduksi dimensi
  • Diskretisasi dan binning
  • Latihan dan studi kasus

Metode Analisis Data Eksploratif dalam R

  • Statistika deskriptif
  • Analisis data eksploratif
  • Visualisasi – langkah awal
  • Visualisasi variabel tunggal
  • Pemeriksaan beberapa variabel
  • Metode statistik untuk penilaian
  • Pengujian hipotesis
  • Latihan dan studi kasus

Visualisasi Data

  • Visualisasi dasar dalam R
  • Paket untuk visualisasi data ggplot2, lattice, plotly, lattice
  • Format grafik dalam R
  • Grafik lanjut
  • Latihan

Regresi (Memperkirakan Nilai Masuk Depan)

  • Regresi linear
  • Kasus penggunaan
  • Deskripsi model
  • Diagnostik
  • Masalah dengan regresi linear
  • Metode pengekangan, regresi ridge, lasso
  • Generalisasi dan nonlinearitas
  • Spline regresi
  • Regresi polinomial lokal
  • Model aditif generalisasi
  • Regresi dengan RHadoop
  • Latihan dan studi kasus

Kluster

  • Masalah terkait kluster
  • Pengulangan Bayes
  • Bayes sederhana
  • Regresi logistik
  • Tetangga terdekat k
  • Algoritma pohon keputusan
  • Jaringan saraf
  • Mesin vektor dukungan
  • Diagnostik klasifikasi
  • Perbandingan metode klasifikasi
  • Algoritma klasifikasi yang dapat di skalakan
  • Latihan dan studi kasus

Menilai Kinerja dan Pemilihan Model

  • Bias, Varians, dan kompleksitas model
  • Akurasi vs Interpretabilitas
  • Mengevaluasi klasifikasi
  • Ukuran kinerja model/algoritma
  • Metode validasi hold-out
  • Validasi silang
  • Menyesuaikan algoritma pemasaran dengan paket caret
  • Memvisualisasikan kinerja model dengan kurva Profit ROC dan Lift

Metode Ensembel

  • Bagging
  • Hutan Acak
  • Boosting
  • Boosting gradien
  • Latihan dan studi kasus

Mesin Vektor Pendukung untuk Klasifikasi dan Regresi

  • Klasifikasi margin maksimum
    • Klasifikasi vektor dukungan
    • Mesin vektor dukungan
    • SVM untuk masalah klasifikasi
    • SVM untuk masalah regresi
  • Latihan dan studi kasus

Mengenali grup-grup yang tidak diketahui dalam sebuah set data

  • Pemilihan fitur untuk pengelompokan
  • Algoritma berbasis representasi: k-means, k-medoids
  • Algoritma hierarchi: metode agglomerative dan divisive
  • Algoritma berbasis probabilistik: EM
  • Algoritma berbasis kepadatan: DBSCAN, DENCLUE
  • Validasi kluster
  • Konsep pengelompokan lanjut
  • Pengelompokan dengan RHadoop
  • Latihan dan studi kasus

Mencari Koneksi dengan Analisis Taut

  • Konsep analisis taut
  • Metrik untuk menganalisis jaringan
  • Algoritma Pagerank
  • Pencarian Topik Terinduksi Hyperlink
  • Prediksi Taut
  • Latihan dan studi kasus

Penambangan Pola Asosiasi

  • Model Penambangan Pola Frekuensi
  • Masalah skalabilitas dalam penambangan pola frekuensi
  • Algoritma Brute Force
  • Algoritma Apriori
  • Pendekatan FP growth
  • Penilaian Aturan Kandidat
  • Aplikasi Aturan Asosiasi
  • Validasi dan Pengujian
  • Diagnostik
  • Aturan asosiasi dengan R dan Hadoop
  • Latihan dan studi kasus

Membangun mesin rekomendasi

  • Memahami sistem rekomendasi
  • Teknik pemrosesan data yang digunakan dalam sistem rekomendasi
  • Sistem rekomendasi dengan paket recommenderlab
  • Mengevaluasi sistem rekomendasi
  • Rekomendasi dengan RHadoop
  • Latihan: Membangun mesin rekomendasi

Analisis Teks

  • Langkah analisis teks
  • Mengumpulkan teks mentah
  • Kantong kata
  • Frekensi Kata – Frekuensi Invers Dokumen
  • Menentukan Sentimen
  • Latihan dan studi kasus
 35 Jam

Jumlah Peserta


Biaya per Peserta

Testimoni (2)

Kursus Mendatang

Kategori Terkait