Kerangka Materi

Setiap sesi berlangsung selama 2 jam

Hari-1: Sesi -1: Tinjauan Bisnis Mengenai Mengenai Big Data Business Intelligence di Pemerintah

  • Studi kasus dari NIH, DoE
  • Tingkat adopsi Big Data di lembaga pemerintah dan bagaimana mereka menyelaraskan operasinya untuk masa depan di sekitar Big Data Predictive Analytics
  • Area aplikasi skala besar di DoD, NSA, IRS, USDA dll.
  • Penyelarasan Big Data dengan data legacy
  • Pengertian dasar mengenai teknologi yang mendukung dalam predictive analytics
  • Integrasi Data & Visualisasi Dashboard
  • Pengelolaan penipuan
  • Pengenalan Business Rule/ deteksi penipuan
  • Deteksi ancaman dan profil
  • Analisis manfaat dan biaya untuk implementasi Big Data

Hari-1: Sesi-2 : Pengantar Big Data-1

  • Karakteristik utama Big Data-volume, variety, velocity dan veracity. Arsitektur MPP untuk volume.
  • Data Warehouse – skema statis, dataset yang berkembang perlahan
  • Database MPP seperti Greenplum, Exadata, Teradata, Netezza, Vertica dll.
  • Solusi berbasis Hadoop – tanpa kondisi pada struktur dataset.
  • Polanya: HDFS, MapReduce (crunch), ambil dari HDFS
  • Batch- cocok untuk analisis/non-interaktif
  • Volume : Data streaming CEP
  • Pilihan umum – produk CEP (misalnya. Infostreams, Apama, MarkLogic dll)
  • Kurang siap produksi – Storm/S4
  • Database NoSQL – (kolom dan kunci-nilai): Cocok sebagai adjung analitis untuk data warehouse/database

Hari-1 : Sesi -3 : Pengantar Big Data-2

Solusi NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarchical) - GT.m, Cache
  • KV Store (Ordered) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Jenis-jenis Data: Pengenalan masalah Data Cleaning dalam Big Data

  • RDBMS – struktur/skema statis, tidak mempromosikan lingkungan yang fleksibel, eksploratif.
  • NoSQL – semi terstruktur, cukup struktur untuk menyimpan data tanpa skema yang tepat sebelum menyimpan data
  • Masalah data cleaning

Hari-1 : Sesi-4 : Pengantar Big Data-3 : Hadoop

  • Kapan memilih Hadoop?
  • STRUCTURED - Enterprise data warehouse/database dapat menyimpan data besar (dengan biaya) tetapi memaksakan struktur (tidak baik untuk eksplorasi aktif)
  • Data SEMI STRUCTURED – sulit dilakukan dengan solusi tradisional (DW/DB)
  • Penyimpanan data = usaha besar dan statis bahkan setelah implementasi
  • Untuk variasi dan volume data, diolah pada perangkat keras komoditas – HADOOP
  • Perangkat keras komoditas yang diperlukan untuk membuat kluster Hadoop

Pengantar Map Reduce /HDFS

  • MapReduce – memdistribusikan komputasi di beberapa server
  • HDFS – membuat data tersedia secara lokal untuk proses komputasi (dengan redundansi)
  • Data – dapat tidak terstruktur/tanpa skema (berbeda dengan RDBMS)
  • Tanggung jawab pengembang untuk mengerti data
  • Pengembangan MapReduce = bekerja dengan Java (kelebihan/kekurangan), memuat data ke HDFS secara manual

Hari-2: Sesi-1: Ekosistem Big Data-Pembangunan Big Data ETL: Universe of Big Data Tools- yang mana digunakan dan kapan?

  • Hadoop vs. Solusi NoSQL lainnya
  • Untuk akses interaktif, acak ke data
  • Hbase (database berorientasi kolom) di atas Hadoop
  • Akses acak ke data tetapi batasan ditetapkan (maksimum 1 PB)
  • Tidak baik untuk analisis ad-hoc, baik untuk logging, penghitungan, seri waktu
  • Sqoop - Impor dari database ke Hive atau HDFS (akses JDBC/ODBC)
  • Flume – Mengumpulkan data (misalnya. data log) ke HDFS

Hari-2: Sesi-2: Sistem Manajemen Big Data

  • Bagian yang bergerak, node komputasi mulai/gagal: ZooKeeper - Untuk layanan konfigurasi/koordinasi/penamaan
  • Pipeline/alur kerja kompleks: Oozie – mengelola alur kerja, dependensi, daisy chain
  • Deploy, konfigurasi, manajemen kluster, pengembangan dll (sys admin) :Ambari
  • Di Cloud : Whirr

Hari-2: Sesi-3: Predictive analytics dalam Business Intelligence -1: Teknik Fundamental & BI berbasis Machine Learning:

  • Pengenalan machine learning
  • Belajar teknik klasifikasi
  • Prediksi Bayesian-persiapan file pelatihan
  • Support Vector Machine
  • KNN p-Tree Algebra & pertambangan vertikal
  • Jaringan saraf
  • Masalah variabel besar Big Data - Random forest (RF)
  • Masalah otomatisasi Big Data – Multi-model ensemble RF
  • Otomatisasi melalui Soft10-M
  • Alat analisis teks-Treeminer
  • Belajar fleksibel
  • Belajar berbasis agen
  • Belajar terdistribusi
  • Pengenalan alat open source untuk predictive analytics: R, Rapidminer, Mahut

Hari-2: Sesi-4: Ekosistem Prediktif Analytics-2: Masalah prediktif analitik umum di pemerintah.

  • Analitik insight
  • Analitik visualisasi
  • Analitik prediktif terstruktur
  • Analitik prediktif tidak terstruktur
  • Profiling vendor, penipuan, ancaman
  • Mesin rekomendasi
  • Deteksi pola
  • Penemuan rule/skenario – kegagalan, penipuan, optimasi
  • Penemuan penyebab akar
  • Analisis sentimen
  • Analitik CRM
  • Analitik jaringan
  • Analitik teks
  • Tinjauan teknologi
  • Analitik penipuan
  • Analitik real time

Hari-3 : Sesi-1 : Analitik Real Time dan Scalable di atas Hadoop

  • Mengapa algoritma analitik umum gagal di Hadoop/HDFS
  • Apache Hama- untuk Bulk Synchronous distributed computing
  • Apache SPARK- untuk cluster computing untuk analitik real time
  • CMU Graphics Lab2- pendekatan grafik asinkron untuk distributed computing
  • Pendekatan KNN p-Algebra dari Treeminer untuk mengurangi biaya operasi perangkat keras

Hari-3: Sesi-2: Alat untuk eDiscovery dan Forensik

  • eDiscovery di atas Big Data vs. data legacy – perbandingan biaya dan kinerja
  • Koding prediktif dan review yang dibantu teknologi (TAR)
  • Demo langsung produk Tar (vMiner) untuk memahami bagaimana TAR bekerja untuk penemuan yang lebih cepat
  • Indeks lebih cepat melalui HDFS – kecepatan data
  • NLP atau pemrosesan bahasa alami – berbagai teknik dan produk open source
  • eDiscovery dalam bahasa asing-teknologi untuk pemrosesan bahasa asing

Hari-3 : Sesi 3: Big Data BI untuk Keamanan Siber –Memahami pemandangan 360 derajat koleksi data cepat hingga identifikasi ancaman

  • Memahami dasar analitik keamanan-luas serangan, konfigurasi keamanan, pertahanan host
  • Infra struktur jaringan / Pipanya data besar / ETL respons untuk analitik real time
  • Preskriptif vs prediktif – aturan tetap berdasarkan vs. penemuan aturan ancaman dari Meta data secara otomatis

Hari-3: Sesi 4: Big Data di USDA : Aplikasi di Pertanian

  • Pengenalan IoT (Internet of Things) untuk pertanian-big data sensor dan kontrol berbasis
  • Pengenalan pengambilan gambar satelit dan aplikasinya dalam pertanian
  • Mengintegrasikan data sensor dan gambar untuk kesuburan tanah, rekomendasi budidaya dan prediksi
  • Asuransi pertanian dan Big Data
  • Prediksi kerugian panen

Hari-4 : Sesi-1: BI Pencegahan Penipuan dari Big Data di Pemerintah-Big Data Analytic Penipuan:

  • Klasifikasi dasar analitik penipuan- analitik berbasis aturan vs prediktif
  • Machine learning yang diawasi dan tidak diawasi untuk deteksi pola penipuan
  • Penipuan vendor/over charging untuk proyek
  • Penipuan Medicare dan Medicaid- teknik deteksi penipuan untuk pemrosesan klaim
  • Penipuan pengembalian biaya perjalanan
  • Penipuan pengembalian pajak IRS
  • Studi kasus dan demo langsung akan diberikan di mana data tersedia.

Hari-4 : Sesi-2: Analitik Media Sosial-Penangkapan dan analisis informasi

  • API Big Data ETL untuk mengekstrak data media sosial
  • Teks, gambar, metadata dan video
  • Analisis sentimen dari feed media sosial
  • Filter media sosial konteks dan non-konteks
  • Dashboard media sosial untuk mengintegrasikan berbagai media sosial
  • Profil media sosial otomatis
  • Demo langsung setiap analitik akan diberikan melalui alat Treeminer.

Hari-4 : Sesi-3: Big Data Analytic dalam pengolahan gambar dan feed video

  • Teknik penyimpanan gambar dalam Big Data- Solusi penyimpanan untuk data melebihi petabita
  • LTFS dan LTO
  • GPFS-LTFS (Solusi penyimpanan bertingkat untuk data gambar besar)
  • Dasar analitik gambar
  • Pengenalan objek
  • Segmentasi gambar
  • Pelacakan gerakan
  • Rekonstruksi gambar 3-D

Hari-4: Sesi-4: Aplikasi Big Data di NIH:

  • Bidang bioinformatika yang muncul
  • Meta-genomika dan masalah mining Big Data
  • Big Data Prediktif analytic untuk farmakogenomika, metabolomika dan proteomika
  • Big Data dalam proses genomika downstream
  • Aplikasi analitik prediktif Big data dalam kesehatan masyarakat

Big Data Dashboard untuk akses cepat dan tampilan data beragam:

  • Integrasi platform aplikasi yang ada dengan Big Data Dashboard
  • Manajemen Big Data
  • Studi kasus Big Data Dashboard: Tableau dan Pentaho
  • Gunakan aplikasi Big Data untuk mendorong layanan berdasarkan lokasi di pemerintah.
  • Sistem pelacakan dan manajemen

Hari-5 : Sesi-1: Bagaimana membenarkan implementasi Big Data BI di dalam organisasi:

  • Mendefinisikan ROI untuk implementasi Big Data
  • Studi kasus untuk menghemat waktu analis untuk koleksi dan persiapan Data – meningkatkan produktivitas
  • Studi kasus peningkatan pendapatan dari menghemat biaya database lisensi
  • Peningkatan pendapatan dari layanan berdasarkan lokasi
  • Penghematan dari pencegahan penipuan
  • Pendekatan spreadsheet terintegrasi untuk menghitung perkiraan biaya vs. pendapatan/hemat dari implementasi Big Data.

Hari-5 : Sesi-2: Langkah demi langkah untuk mengganti sistem data legacy menjadi Sistem Big Data:

  • Memahami Big Data Migration Roadmap praktis
  • Informasi penting apa yang dibutuhkan sebelum merancang implementasi Big Data
  • Cara-cara yang berbeda untuk menghitung volume, kecepatan, variasi dan kejujuran data
  • Bagaimana memperkirakan pertumbuhan data
  • Studi kasus

Hari-5: Sesi 4: Tinjauan Vendor Big Data dan tinjauan produk mereka. Sesion Q/A:

  • Accenture
  • APTEAN (Dulu CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Dulu 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Bagian dari EMC)

Persyaratan

  • Pengetahuan dasar tentang operasi bisnis dan sistem data di Pemerintah dalam bidangnya
  • Pengetahuan dasar tentang SQL/Oracle atau basis data relasional
  • Pengetahuan dasar tentang Statistik (di level Spreadsheet)
 35 Jam

Jumlah Peserta


Biaya per Peserta

Testimoni (1)

Kursus Mendatang

Kategori Terkait