Kerangka Materi

Setiap sesi berdurasi 2 jam

Hari-1: Sesi -1: Gambaran Bisnis Tentang Mengapa Big Data Business Intelligence di Pemerintahan

  • Studi kasus dari NIH, DoE
  • Tingkat adaptasi Big Data di Agen Pemerintah & bagaimana mereka menyelaraskan operasi masa depan mereka dengan Analitik Prediktif Big Data
  • Area Aplikasi Besar di DoD, NSA, IRS, USDA dll.
  • Mengintegrasikan Big Data dengan data legacy
  • Memahami dasar-dasar teknologi yang memungkinkan dalam analitik prediktif
  • Integrasi Data & Visualisasi Dashboard
  • Manajemen Penipuan
  • Pembuatan Aturan Bisnis/Pendeteksi Penipuan
  • Pendeteksian dan Profiling Ancaman
  • Analisis biaya-manfaat untuk implementasi Big Data

Hari-1: Sesi-2 : Pengenalan Big Data-1

  • Karakteristik utama Big Data—volume, variasi, kecepatan, dan veritas. Arsitektur MPP untuk volume.
  • Gudang Data — skema statis, dataset yang berkembang lambat
  • Basis data MPP seperti Greenplum, Exadata, Teradata, Netezza, Vertica dll.
  • Solusi Berbasis Hadoop — tidak ada kondisi pada struktur dataset.
  • Pola tipikal : HDFS, MapReduce (crunch), mengambil dari HDFS
  • Batch—cocok untuk analitik/non-interaktif
  • Volume : data streaming CEP
  • Pilihan tipikal — produk CEP (mis. Infostreams, Apama, MarkLogic dll)
  • Kurang siap produksi — Storm/S4
  • Basis Data NoSQL — (kolom dan key-value): Cocok sebagai penambah analitis untuk gudang data/basis data

Hari-1 : Sesi -3 : Pengenalan Big Data-2

Solusi NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarkis) - GT.m, Cache
  • KV Store (Berurutan) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Basis Data Objek - ZopeDB, DB40, Shoal
  • Dokumen Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variasi Data: Pengenalan Masalah Pembersihan Data dalam Big Data

  • RDBMS — struktur/skema statis, tidak mendukung lingkungan yang lincah dan eksploratif.
  • NoSQL — semi terstruktur, cukup struktur untuk menyimpan data tanpa skema yang tepat sebelum penyimpanan data
  • Masalah pembersihan data

Hari-1 : Sesi-4 : Pengenalan Big Data-3: Hadoop

  • Kapan memilih Hadoop?
  • TERSTRUKTUR - Gudang data perusahaan/basis data dapat menyimpan data dalam jumlah besar (dengan biaya) tetapi mengimposkan struktur (tidak baik untuk eksplorasi aktif)
  • DATA SEMI TERSTRUKTUR — sulit dilakukan dengan solusi tradisional (DW/DB)
  • Penyimpanan data =usaha besar dan statis bahkan setelah implementasi
  • Untuk variasi & volume data, diproses pada perangkat keras komoditas — HADOOP
  • Perangkat keras komoditas diperlukan untuk membuat klaster Hadoop

Pengenalan Map Reduce /HDFS

  • MapReduce — mengalihkan komputasi ke beberapa server
  • HDFS — membuat data tersedia secara lokal untuk proses komputasi (dengan redundansi)
  • Data — dapat tidak terstruktur/tanpa skema (berbeda dengan RDBMS)
  • Tanggung jawab pengembang untuk memahami data
  • Pemrograman MapReduce = bekerja dengan Java (kelebihan/kekurangan), memuat data secara manual ke HDFS

Hari-2: Sesi-1: Ekosistem Big Data-Membangun Big Data ETL: alam semesta Alat Big Data-mana yang harus digunakan dan kapan?

  • Hadoop vs. Solusi NoSQL lainnya
  • Untuk akses interaktif, acak ke data
  • Hbase (basis data berorientasi kolom) di atas Hadoop
  • Akses acak ke data tetapi dengan batasan yang dikenakan (maks 1 PB)
  • Tidak baik untuk analitik ad-hoc, baik untuk pencatatan, penghitungan, time-series
  • Sqoop - Impor dari basis data ke Hive atau HDFS (akses JDBC/ODBC)
  • Flume — Alirkan data (mis. log data) ke HDFS

Hari-2: Sesi-2: Sistem Manajemen Big Data

  • Komponen bergerak, node komputasi mulai/gagal :ZooKeeper - Untuk layanan konfigurasi/koordinasi/pemberian nama
  • Pipa kerja/alur kerja kompleks: Oozie — kelola alur kerja, ketergantungan, tautan beruntun
  • Penyebaran, konfigurasi, manajemen klaster, peningkatan dll (admin sistem) :Ambari
  • Di Cloud : Whirr

Hari-2: Sesi-3: Analitik Prediktif dalam Business Intelligence -1: Teknik Fundamental & BI Berbasis Pembelajaran Mesin :

  • Pengenalan ke Pembelajaran Mesin
  • Belajar teknik klasifikasi
  • Prediksi Bayesian—menyiapkan file pelatihan
  • Mesin Vektor Dukungan (SVM)
  • KNN p-Tree Algebra & penambangan vertikal
  • Jaringan Saraf Tiruan
  • Masalah variabel besar Big Data -Hutan Acak (RF)
  • Masalah otomatisasi Big Data — Ensemble model ganda RF
  • Otomatisasi melalui Soft10-M
  • Alat analitik teks-Treeminer
  • Pembelajaran lincah
  • Pembelajaran berbasis agen
  • Pembelajaran terdistribusi
  • Pengenalan alat open source untuk analitik prediktif : R, Rapidminer, Mahut

Hari-2: Sesi-4 Ekosistem Analitik Prediktif-2: Masalah analitik prediktif umum di Pemerintah

  • Analitik wawasan
  • Analitik visualisasi
  • Analitik prediktif terstruktur
  • Analitik prediktif tidak terstruktur
  • Profil ancaman/penipuan/vendor
  • Mesin rekomendasi
  • Pendeteksian pola
  • Penemuan aturan/skenario —kegagalan, penipuan, optimasi
  • Penemuan sebab utama
  • Analitik sentimen
  • Analitik CRM
  • Analitik jaringan
  • Analitik teks
  • Ulasan yang didukung teknologi
  • Analitik penipuan
  • Analitik waktu nyata

Hari-3 : Sesi-1: Analisis Waktu Nyata dan Skalabel di Hadoop

  • Mengapa algoritma analisis umum gagal di Hadoop/HDFS
  • Apache Hama— untuk komputasi terdistribusi sinkron bulk
  • Apache SPARK — untuk komputasi klaster untuk analisis waktu nyata
  • Lab Grafis CMU2— pendekatan asinkron berbasis grafik ke komputasi terdistribusi
  • Pendekatan p-Algebra KNN dari Treeminer untuk mengurangi biaya perangkat keras operasional

Hari-3: Sesi-2: Alat untuk eDiscovery dan Forensik

  • eDiscovery di Big Data vs. data legacy — perbandingan biaya dan kinerja
  • Pemrograman prediktif dan ulasan yang didukung teknologi (TAR)
  • Demo langsung produk Tar (vMiner) untuk memahami cara kerja TAR dalam penemuan lebih cepat
  • Penyegelan yang lebih cepat melalui HDFS —kecepatan data
  • NLP atau Natural Language Processing— berbagai teknik dan produk open source
  • eDiscovery dalam bahasa asing—teknologi untuk pemrosesan bahasa asing

Hari-3 : Sesi 3: Big Data BI untuk Keamanan Siber — Memahami pandangan 360 derajat dari pengumpulan data cepat hingga identifikasi ancaman

  • Memahami dasar-dasar analitik keamanan—permukaan serangan, konfigurasi keamanan yang salah, pertahanan host
  • Infrastruktur jaringan/pipa data besar/ETL respons untuk analisis waktu nyata
  • Preskriptif vs prediktif — aturan tetap berbasis vs penemuan ancaman otomatis dari Meta data

Hari-3: Sesi 4: Big Data di USDA : Aplikasi dalam Pertanian

  • Pengenalan IoT (Internet of Things) untuk pertanian—data sensor berbasis Big Data dan kontrol
  • Pengenalan pencitraan satelit dan aplikasinya dalam pertanian
  • Integrasi data sensor dan gambar untuk kesuburan tanah, rekomendasi penanaman, dan peramalan
  • Asuransi pertanian dan Big Data
  • Peramalan kerugian tanaman

Hari-4 : Sesi-1: Pencegahan Penipuan BI dari Big Data di Pemerintah—Analitik penipuan:

  • Klasifikasi dasar analitik penipuan — aturan berbasis vs analitik prediktif
  • Pembelajaran Mesin terawasi vs tidak terawasi untuk pendeteksian pola penipuan
  • Penipuan vendor/pembebanan berlebihan proyek
  • Penipuan Medicare dan Medicaid—teknik pendeteksian penipuan untuk pemrosesan klaim
  • Penipuan penggantian biaya perjalanan
  • Penipuan pengembalian pajak IRS
  • Studi kasus dan demo langsung akan diberikan di mana pun data tersedia.

Hari-4 : Sesi-2: Analitik Media Sosial—Pengumpulan dan analisis intelijen

  • API Big Data ETL untuk mengekstrak data media sosial
  • Teks, gambar, metadata, dan video
  • Analitik sentimen dari umpan media sosial
  • Penyaringan kontekstual dan non-kontekstual dari umpan media sosial
  • Dasbor Media Sosial untuk mengintegrasikan berbagai media sosial
  • Profil otomatis dari profil media sosial
  • Demo langsung setiap analitik akan diberikan melalui Alat Treeminer.

Hari-4 : Sesi-3: Analisis Big Data dalam pemrosesan gambar dan umpan video

  • Teknik penyimpanan gambar di Big Data—solusi penyimpanan data yang melebihi petabyte
  • LTFS dan LTO
  • GPFS-LTFS (Solusi penyimpanan berlapis untuk data gambar besar)
  • Dasar-dasar analitik gambar
  • Pengenalan objek
  • Segmentasi gambar
  • Pelacakan gerakan
  • Rekonstruksi gambar 3-D

Hari-4: Sesi-4: Aplikasi Big Data di NIH:

  • Area baru Bio-informatika
  • Meta-genomics dan masalah penambangan Big Data
  • Analitik prediktif Big Data untuk Farmakogenomik, Metabolomik, dan Proteomik
  • Big Data dalam proses Genomik downstream
  • Aplikasi analitik prediktif Big data dalam kesehatan publik

Dasbor Big Data untuk akses cepat dan tampilan beragam data:

  • Integrasi platform aplikasi yang ada dengan Dasbor Big Data
  • Manajemen Big Data
  • Studi kasus Dasbor Big Data: Tableau dan Pentaho
  • Gunakan aplikasi Big Data untuk mendorong layanan berbasis lokasi di Pemerintah
  • Sistem pelacakan dan manajemen

Hari-5 : Sesi-1: Bagaimana membenarkan implementasi Big Data BI dalam organisasi:

  • Mendefinisikan ROI untuk implementasi Big Data
  • Studi kasus untuk menghemat waktu Analis dalam pengumpulan dan persiapan Data —peningkatan produktivitas
  • Studi kasus pendapatan dari penghematan biaya basis data berlisensi
  • Pendapatan dari layanan berbasis lokasi
  • Penghematan dari pencegahan penipuan
  • Pendekatan spreadsheet terpadu untuk menghitung biaya kira-kira vs. pendapatan / penghematan dari implementasi Big Data.

Hari-5 : Sesi-2: Prosedur Langkah demi Langkah untuk Menggantikan Sistem Data Legacy dengan Sistem Big Data:

  • Memahami Peta Jalan Migrasi Big Data praktis
  • Informasi penting apa yang dibutuhkan sebelum merancang implementasi Big Data
  • Cara berbeda menghitung volume, kecepatan, variasi, dan veritas data
  • Bagaimana memperkirakan pertumbuhan data
  • Studi kasus

Hari-5: Sesi 4: Tinjauan Penyedia Big Data dan tinjauan produk mereka. Sesi Q/A:

  • Accenture
  • APTEAN (Dulu CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Dulu 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Bagian dari EMC)

Persyaratan

  • Pengetahuan dasar tentang operasi bisnis dan sistem data di Pemerintahan dalam domain mereka
  • Memahami dasar-dasar SQL/Oracle atau basis data relasional
  • Memahami dasar-dasar Statistik (pada tingkat Spreadsheet)
 35 Jam

Jumlah Peserta


Biaya per Peserta

Testimoni (1)

Kursus Mendatang

Kategori Terkait