Terima kasih telah mengirimkan pertanyaan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Terima kasih telah mengirimkan pemesanan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Kerangka Materi
Setiap sesi berdurasi 2 jam
Hari-1: Sesi -1: Gambaran Bisnis Tentang Mengapa Big Data Business Intelligence di Pemerintahan
- Studi kasus dari NIH, DoE
- Tingkat adaptasi Big Data di Agen Pemerintah & bagaimana mereka menyelaraskan operasi masa depan mereka dengan Analitik Prediktif Big Data
- Area Aplikasi Besar di DoD, NSA, IRS, USDA dll.
- Mengintegrasikan Big Data dengan data legacy
- Memahami dasar-dasar teknologi yang memungkinkan dalam analitik prediktif
- Integrasi Data & Visualisasi Dashboard
- Manajemen Penipuan
- Pembuatan Aturan Bisnis/Pendeteksi Penipuan
- Pendeteksian dan Profiling Ancaman
- Analisis biaya-manfaat untuk implementasi Big Data
Hari-1: Sesi-2 : Pengenalan Big Data-1
- Karakteristik utama Big Data—volume, variasi, kecepatan, dan veritas. Arsitektur MPP untuk volume.
- Gudang Data — skema statis, dataset yang berkembang lambat
- Basis data MPP seperti Greenplum, Exadata, Teradata, Netezza, Vertica dll.
- Solusi Berbasis Hadoop — tidak ada kondisi pada struktur dataset.
- Pola tipikal : HDFS, MapReduce (crunch), mengambil dari HDFS
- Batch—cocok untuk analitik/non-interaktif
- Volume : data streaming CEP
- Pilihan tipikal — produk CEP (mis. Infostreams, Apama, MarkLogic dll)
- Kurang siap produksi — Storm/S4
- Basis Data NoSQL — (kolom dan key-value): Cocok sebagai penambah analitis untuk gudang data/basis data
Hari-1 : Sesi -3 : Pengenalan Big Data-2
Solusi NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarkis) - GT.m, Cache
- KV Store (Berurutan) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Basis Data Objek - ZopeDB, DB40, Shoal
- Dokumen Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variasi Data: Pengenalan Masalah Pembersihan Data dalam Big Data
- RDBMS — struktur/skema statis, tidak mendukung lingkungan yang lincah dan eksploratif.
- NoSQL — semi terstruktur, cukup struktur untuk menyimpan data tanpa skema yang tepat sebelum penyimpanan data
- Masalah pembersihan data
Hari-1 : Sesi-4 : Pengenalan Big Data-3: Hadoop
- Kapan memilih Hadoop?
- TERSTRUKTUR - Gudang data perusahaan/basis data dapat menyimpan data dalam jumlah besar (dengan biaya) tetapi mengimposkan struktur (tidak baik untuk eksplorasi aktif)
- DATA SEMI TERSTRUKTUR — sulit dilakukan dengan solusi tradisional (DW/DB)
- Penyimpanan data =usaha besar dan statis bahkan setelah implementasi
- Untuk variasi & volume data, diproses pada perangkat keras komoditas — HADOOP
- Perangkat keras komoditas diperlukan untuk membuat klaster Hadoop
Pengenalan Map Reduce /HDFS
- MapReduce — mengalihkan komputasi ke beberapa server
- HDFS — membuat data tersedia secara lokal untuk proses komputasi (dengan redundansi)
- Data — dapat tidak terstruktur/tanpa skema (berbeda dengan RDBMS)
- Tanggung jawab pengembang untuk memahami data
- Pemrograman MapReduce = bekerja dengan Java (kelebihan/kekurangan), memuat data secara manual ke HDFS
Hari-2: Sesi-1: Ekosistem Big Data-Membangun Big Data ETL: alam semesta Alat Big Data-mana yang harus digunakan dan kapan?
- Hadoop vs. Solusi NoSQL lainnya
- Untuk akses interaktif, acak ke data
- Hbase (basis data berorientasi kolom) di atas Hadoop
- Akses acak ke data tetapi dengan batasan yang dikenakan (maks 1 PB)
- Tidak baik untuk analitik ad-hoc, baik untuk pencatatan, penghitungan, time-series
- Sqoop - Impor dari basis data ke Hive atau HDFS (akses JDBC/ODBC)
- Flume — Alirkan data (mis. log data) ke HDFS
Hari-2: Sesi-2: Sistem Manajemen Big Data
- Komponen bergerak, node komputasi mulai/gagal :ZooKeeper - Untuk layanan konfigurasi/koordinasi/pemberian nama
- Pipa kerja/alur kerja kompleks: Oozie — kelola alur kerja, ketergantungan, tautan beruntun
- Penyebaran, konfigurasi, manajemen klaster, peningkatan dll (admin sistem) :Ambari
- Di Cloud : Whirr
Hari-2: Sesi-3: Analitik Prediktif dalam Business Intelligence -1: Teknik Fundamental & BI Berbasis Pembelajaran Mesin :
- Pengenalan ke Pembelajaran Mesin
- Belajar teknik klasifikasi
- Prediksi Bayesian—menyiapkan file pelatihan
- Mesin Vektor Dukungan (SVM)
- KNN p-Tree Algebra & penambangan vertikal
- Jaringan Saraf Tiruan
- Masalah variabel besar Big Data -Hutan Acak (RF)
- Masalah otomatisasi Big Data — Ensemble model ganda RF
- Otomatisasi melalui Soft10-M
- Alat analitik teks-Treeminer
- Pembelajaran lincah
- Pembelajaran berbasis agen
- Pembelajaran terdistribusi
- Pengenalan alat open source untuk analitik prediktif : R, Rapidminer, Mahut
Hari-2: Sesi-4 Ekosistem Analitik Prediktif-2: Masalah analitik prediktif umum di Pemerintah
- Analitik wawasan
- Analitik visualisasi
- Analitik prediktif terstruktur
- Analitik prediktif tidak terstruktur
- Profil ancaman/penipuan/vendor
- Mesin rekomendasi
- Pendeteksian pola
- Penemuan aturan/skenario —kegagalan, penipuan, optimasi
- Penemuan sebab utama
- Analitik sentimen
- Analitik CRM
- Analitik jaringan
- Analitik teks
- Ulasan yang didukung teknologi
- Analitik penipuan
- Analitik waktu nyata
Hari-3 : Sesi-1: Analisis Waktu Nyata dan Skalabel di Hadoop
- Mengapa algoritma analisis umum gagal di Hadoop/HDFS
- Apache Hama— untuk komputasi terdistribusi sinkron bulk
- Apache SPARK — untuk komputasi klaster untuk analisis waktu nyata
- Lab Grafis CMU2— pendekatan asinkron berbasis grafik ke komputasi terdistribusi
- Pendekatan p-Algebra KNN dari Treeminer untuk mengurangi biaya perangkat keras operasional
Hari-3: Sesi-2: Alat untuk eDiscovery dan Forensik
- eDiscovery di Big Data vs. data legacy — perbandingan biaya dan kinerja
- Pemrograman prediktif dan ulasan yang didukung teknologi (TAR)
- Demo langsung produk Tar (vMiner) untuk memahami cara kerja TAR dalam penemuan lebih cepat
- Penyegelan yang lebih cepat melalui HDFS —kecepatan data
- NLP atau Natural Language Processing— berbagai teknik dan produk open source
- eDiscovery dalam bahasa asing—teknologi untuk pemrosesan bahasa asing
Hari-3 : Sesi 3: Big Data BI untuk Keamanan Siber — Memahami pandangan 360 derajat dari pengumpulan data cepat hingga identifikasi ancaman
- Memahami dasar-dasar analitik keamanan—permukaan serangan, konfigurasi keamanan yang salah, pertahanan host
- Infrastruktur jaringan/pipa data besar/ETL respons untuk analisis waktu nyata
- Preskriptif vs prediktif — aturan tetap berbasis vs penemuan ancaman otomatis dari Meta data
Hari-3: Sesi 4: Big Data di USDA : Aplikasi dalam Pertanian
- Pengenalan IoT (Internet of Things) untuk pertanian—data sensor berbasis Big Data dan kontrol
- Pengenalan pencitraan satelit dan aplikasinya dalam pertanian
- Integrasi data sensor dan gambar untuk kesuburan tanah, rekomendasi penanaman, dan peramalan
- Asuransi pertanian dan Big Data
- Peramalan kerugian tanaman
Hari-4 : Sesi-1: Pencegahan Penipuan BI dari Big Data di Pemerintah—Analitik penipuan:
- Klasifikasi dasar analitik penipuan — aturan berbasis vs analitik prediktif
- Pembelajaran Mesin terawasi vs tidak terawasi untuk pendeteksian pola penipuan
- Penipuan vendor/pembebanan berlebihan proyek
- Penipuan Medicare dan Medicaid—teknik pendeteksian penipuan untuk pemrosesan klaim
- Penipuan penggantian biaya perjalanan
- Penipuan pengembalian pajak IRS
- Studi kasus dan demo langsung akan diberikan di mana pun data tersedia.
Hari-4 : Sesi-2: Analitik Media Sosial—Pengumpulan dan analisis intelijen
- API Big Data ETL untuk mengekstrak data media sosial
- Teks, gambar, metadata, dan video
- Analitik sentimen dari umpan media sosial
- Penyaringan kontekstual dan non-kontekstual dari umpan media sosial
- Dasbor Media Sosial untuk mengintegrasikan berbagai media sosial
- Profil otomatis dari profil media sosial
- Demo langsung setiap analitik akan diberikan melalui Alat Treeminer.
Hari-4 : Sesi-3: Analisis Big Data dalam pemrosesan gambar dan umpan video
- Teknik penyimpanan gambar di Big Data—solusi penyimpanan data yang melebihi petabyte
- LTFS dan LTO
- GPFS-LTFS (Solusi penyimpanan berlapis untuk data gambar besar)
- Dasar-dasar analitik gambar
- Pengenalan objek
- Segmentasi gambar
- Pelacakan gerakan
- Rekonstruksi gambar 3-D
Hari-4: Sesi-4: Aplikasi Big Data di NIH:
- Area baru Bio-informatika
- Meta-genomics dan masalah penambangan Big Data
- Analitik prediktif Big Data untuk Farmakogenomik, Metabolomik, dan Proteomik
- Big Data dalam proses Genomik downstream
- Aplikasi analitik prediktif Big data dalam kesehatan publik
Dasbor Big Data untuk akses cepat dan tampilan beragam data:
- Integrasi platform aplikasi yang ada dengan Dasbor Big Data
- Manajemen Big Data
- Studi kasus Dasbor Big Data: Tableau dan Pentaho
- Gunakan aplikasi Big Data untuk mendorong layanan berbasis lokasi di Pemerintah
- Sistem pelacakan dan manajemen
Hari-5 : Sesi-1: Bagaimana membenarkan implementasi Big Data BI dalam organisasi:
- Mendefinisikan ROI untuk implementasi Big Data
- Studi kasus untuk menghemat waktu Analis dalam pengumpulan dan persiapan Data —peningkatan produktivitas
- Studi kasus pendapatan dari penghematan biaya basis data berlisensi
- Pendapatan dari layanan berbasis lokasi
- Penghematan dari pencegahan penipuan
- Pendekatan spreadsheet terpadu untuk menghitung biaya kira-kira vs. pendapatan / penghematan dari implementasi Big Data.
Hari-5 : Sesi-2: Prosedur Langkah demi Langkah untuk Menggantikan Sistem Data Legacy dengan Sistem Big Data:
- Memahami Peta Jalan Migrasi Big Data praktis
- Informasi penting apa yang dibutuhkan sebelum merancang implementasi Big Data
- Cara berbeda menghitung volume, kecepatan, variasi, dan veritas data
- Bagaimana memperkirakan pertumbuhan data
- Studi kasus
Hari-5: Sesi 4: Tinjauan Penyedia Big Data dan tinjauan produk mereka. Sesi Q/A:
- Accenture
- APTEAN (Dulu CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Dulu 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Bagian dari EMC)
Persyaratan
- Pengetahuan dasar tentang operasi bisnis dan sistem data di Pemerintahan dalam domain mereka
- Memahami dasar-dasar SQL/Oracle atau basis data relasional
- Memahami dasar-dasar Statistik (pada tingkat Spreadsheet)
35 Jam
Testimoni (1)
Kemampuan instruktur untuk menyelaraskan kursus dengan kebutuhan organisasi, bukan hanya memberikan kursus demi penyampaian materi semata.
Masilonyane - Revenue Services Lesotho
Kursus - Big Data Business Intelligence for Govt. Agencies
Diterjemahkan Mesin