Terima kasih telah mengirimkan pertanyaan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Terima kasih telah mengirimkan pemesanan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Kerangka Materi
Setiap sesi berlangsung selama 2 jam
Hari-1: Sesi -1: Tinjauan Bisnis Mengenai Mengenai Big Data Business Intelligence di Pemerintah
- Studi kasus dari NIH, DoE
- Tingkat adopsi Big Data di lembaga pemerintah dan bagaimana mereka menyelaraskan operasinya untuk masa depan di sekitar Big Data Predictive Analytics
- Area aplikasi skala besar di DoD, NSA, IRS, USDA dll.
- Penyelarasan Big Data dengan data legacy
- Pengertian dasar mengenai teknologi yang mendukung dalam predictive analytics
- Integrasi Data & Visualisasi Dashboard
- Pengelolaan penipuan
- Pengenalan Business Rule/ deteksi penipuan
- Deteksi ancaman dan profil
- Analisis manfaat dan biaya untuk implementasi Big Data
Hari-1: Sesi-2 : Pengantar Big Data-1
- Karakteristik utama Big Data-volume, variety, velocity dan veracity. Arsitektur MPP untuk volume.
- Data Warehouse – skema statis, dataset yang berkembang perlahan
- Database MPP seperti Greenplum, Exadata, Teradata, Netezza, Vertica dll.
- Solusi berbasis Hadoop – tanpa kondisi pada struktur dataset.
- Polanya: HDFS, MapReduce (crunch), ambil dari HDFS
- Batch- cocok untuk analisis/non-interaktif
- Volume : Data streaming CEP
- Pilihan umum – produk CEP (misalnya. Infostreams, Apama, MarkLogic dll)
- Kurang siap produksi – Storm/S4
- Database NoSQL – (kolom dan kunci-nilai): Cocok sebagai adjung analitis untuk data warehouse/database
Hari-1 : Sesi -3 : Pengantar Big Data-2
Solusi NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarchical) - GT.m, Cache
- KV Store (Ordered) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Object Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Jenis-jenis Data: Pengenalan masalah Data Cleaning dalam Big Data
- RDBMS – struktur/skema statis, tidak mempromosikan lingkungan yang fleksibel, eksploratif.
- NoSQL – semi terstruktur, cukup struktur untuk menyimpan data tanpa skema yang tepat sebelum menyimpan data
- Masalah data cleaning
Hari-1 : Sesi-4 : Pengantar Big Data-3 : Hadoop
- Kapan memilih Hadoop?
- STRUCTURED - Enterprise data warehouse/database dapat menyimpan data besar (dengan biaya) tetapi memaksakan struktur (tidak baik untuk eksplorasi aktif)
- Data SEMI STRUCTURED – sulit dilakukan dengan solusi tradisional (DW/DB)
- Penyimpanan data = usaha besar dan statis bahkan setelah implementasi
- Untuk variasi dan volume data, diolah pada perangkat keras komoditas – HADOOP
- Perangkat keras komoditas yang diperlukan untuk membuat kluster Hadoop
Pengantar Map Reduce /HDFS
- MapReduce – memdistribusikan komputasi di beberapa server
- HDFS – membuat data tersedia secara lokal untuk proses komputasi (dengan redundansi)
- Data – dapat tidak terstruktur/tanpa skema (berbeda dengan RDBMS)
- Tanggung jawab pengembang untuk mengerti data
- Pengembangan MapReduce = bekerja dengan Java (kelebihan/kekurangan), memuat data ke HDFS secara manual
Hari-2: Sesi-1: Ekosistem Big Data-Pembangunan Big Data ETL: Universe of Big Data Tools- yang mana digunakan dan kapan?
- Hadoop vs. Solusi NoSQL lainnya
- Untuk akses interaktif, acak ke data
- Hbase (database berorientasi kolom) di atas Hadoop
- Akses acak ke data tetapi batasan ditetapkan (maksimum 1 PB)
- Tidak baik untuk analisis ad-hoc, baik untuk logging, penghitungan, seri waktu
- Sqoop - Impor dari database ke Hive atau HDFS (akses JDBC/ODBC)
- Flume – Mengumpulkan data (misalnya. data log) ke HDFS
Hari-2: Sesi-2: Sistem Manajemen Big Data
- Bagian yang bergerak, node komputasi mulai/gagal: ZooKeeper - Untuk layanan konfigurasi/koordinasi/penamaan
- Pipeline/alur kerja kompleks: Oozie – mengelola alur kerja, dependensi, daisy chain
- Deploy, konfigurasi, manajemen kluster, pengembangan dll (sys admin) :Ambari
- Di Cloud : Whirr
Hari-2: Sesi-3: Predictive analytics dalam Business Intelligence -1: Teknik Fundamental & BI berbasis Machine Learning:
- Pengenalan machine learning
- Belajar teknik klasifikasi
- Prediksi Bayesian-persiapan file pelatihan
- Support Vector Machine
- KNN p-Tree Algebra & pertambangan vertikal
- Jaringan saraf
- Masalah variabel besar Big Data - Random forest (RF)
- Masalah otomatisasi Big Data – Multi-model ensemble RF
- Otomatisasi melalui Soft10-M
- Alat analisis teks-Treeminer
- Belajar fleksibel
- Belajar berbasis agen
- Belajar terdistribusi
- Pengenalan alat open source untuk predictive analytics: R, Rapidminer, Mahut
Hari-2: Sesi-4: Ekosistem Prediktif Analytics-2: Masalah prediktif analitik umum di pemerintah.
- Analitik insight
- Analitik visualisasi
- Analitik prediktif terstruktur
- Analitik prediktif tidak terstruktur
- Profiling vendor, penipuan, ancaman
- Mesin rekomendasi
- Deteksi pola
- Penemuan rule/skenario – kegagalan, penipuan, optimasi
- Penemuan penyebab akar
- Analisis sentimen
- Analitik CRM
- Analitik jaringan
- Analitik teks
- Tinjauan teknologi
- Analitik penipuan
- Analitik real time
Hari-3 : Sesi-1 : Analitik Real Time dan Scalable di atas Hadoop
- Mengapa algoritma analitik umum gagal di Hadoop/HDFS
- Apache Hama- untuk Bulk Synchronous distributed computing
- Apache SPARK- untuk cluster computing untuk analitik real time
- CMU Graphics Lab2- pendekatan grafik asinkron untuk distributed computing
- Pendekatan KNN p-Algebra dari Treeminer untuk mengurangi biaya operasi perangkat keras
Hari-3: Sesi-2: Alat untuk eDiscovery dan Forensik
- eDiscovery di atas Big Data vs. data legacy – perbandingan biaya dan kinerja
- Koding prediktif dan review yang dibantu teknologi (TAR)
- Demo langsung produk Tar (vMiner) untuk memahami bagaimana TAR bekerja untuk penemuan yang lebih cepat
- Indeks lebih cepat melalui HDFS – kecepatan data
- NLP atau pemrosesan bahasa alami – berbagai teknik dan produk open source
- eDiscovery dalam bahasa asing-teknologi untuk pemrosesan bahasa asing
Hari-3 : Sesi 3: Big Data BI untuk Keamanan Siber –Memahami pemandangan 360 derajat koleksi data cepat hingga identifikasi ancaman
- Memahami dasar analitik keamanan-luas serangan, konfigurasi keamanan, pertahanan host
- Infra struktur jaringan / Pipanya data besar / ETL respons untuk analitik real time
- Preskriptif vs prediktif – aturan tetap berdasarkan vs. penemuan aturan ancaman dari Meta data secara otomatis
Hari-3: Sesi 4: Big Data di USDA : Aplikasi di Pertanian
- Pengenalan IoT (Internet of Things) untuk pertanian-big data sensor dan kontrol berbasis
- Pengenalan pengambilan gambar satelit dan aplikasinya dalam pertanian
- Mengintegrasikan data sensor dan gambar untuk kesuburan tanah, rekomendasi budidaya dan prediksi
- Asuransi pertanian dan Big Data
- Prediksi kerugian panen
Hari-4 : Sesi-1: BI Pencegahan Penipuan dari Big Data di Pemerintah-Big Data Analytic Penipuan:
- Klasifikasi dasar analitik penipuan- analitik berbasis aturan vs prediktif
- Machine learning yang diawasi dan tidak diawasi untuk deteksi pola penipuan
- Penipuan vendor/over charging untuk proyek
- Penipuan Medicare dan Medicaid- teknik deteksi penipuan untuk pemrosesan klaim
- Penipuan pengembalian biaya perjalanan
- Penipuan pengembalian pajak IRS
- Studi kasus dan demo langsung akan diberikan di mana data tersedia.
Hari-4 : Sesi-2: Analitik Media Sosial-Penangkapan dan analisis informasi
- API Big Data ETL untuk mengekstrak data media sosial
- Teks, gambar, metadata dan video
- Analisis sentimen dari feed media sosial
- Filter media sosial konteks dan non-konteks
- Dashboard media sosial untuk mengintegrasikan berbagai media sosial
- Profil media sosial otomatis
- Demo langsung setiap analitik akan diberikan melalui alat Treeminer.
Hari-4 : Sesi-3: Big Data Analytic dalam pengolahan gambar dan feed video
- Teknik penyimpanan gambar dalam Big Data- Solusi penyimpanan untuk data melebihi petabita
- LTFS dan LTO
- GPFS-LTFS (Solusi penyimpanan bertingkat untuk data gambar besar)
- Dasar analitik gambar
- Pengenalan objek
- Segmentasi gambar
- Pelacakan gerakan
- Rekonstruksi gambar 3-D
Hari-4: Sesi-4: Aplikasi Big Data di NIH:
- Bidang bioinformatika yang muncul
- Meta-genomika dan masalah mining Big Data
- Big Data Prediktif analytic untuk farmakogenomika, metabolomika dan proteomika
- Big Data dalam proses genomika downstream
- Aplikasi analitik prediktif Big data dalam kesehatan masyarakat
Big Data Dashboard untuk akses cepat dan tampilan data beragam:
- Integrasi platform aplikasi yang ada dengan Big Data Dashboard
- Manajemen Big Data
- Studi kasus Big Data Dashboard: Tableau dan Pentaho
- Gunakan aplikasi Big Data untuk mendorong layanan berdasarkan lokasi di pemerintah.
- Sistem pelacakan dan manajemen
Hari-5 : Sesi-1: Bagaimana membenarkan implementasi Big Data BI di dalam organisasi:
- Mendefinisikan ROI untuk implementasi Big Data
- Studi kasus untuk menghemat waktu analis untuk koleksi dan persiapan Data – meningkatkan produktivitas
- Studi kasus peningkatan pendapatan dari menghemat biaya database lisensi
- Peningkatan pendapatan dari layanan berdasarkan lokasi
- Penghematan dari pencegahan penipuan
- Pendekatan spreadsheet terintegrasi untuk menghitung perkiraan biaya vs. pendapatan/hemat dari implementasi Big Data.
Hari-5 : Sesi-2: Langkah demi langkah untuk mengganti sistem data legacy menjadi Sistem Big Data:
- Memahami Big Data Migration Roadmap praktis
- Informasi penting apa yang dibutuhkan sebelum merancang implementasi Big Data
- Cara-cara yang berbeda untuk menghitung volume, kecepatan, variasi dan kejujuran data
- Bagaimana memperkirakan pertumbuhan data
- Studi kasus
Hari-5: Sesi 4: Tinjauan Vendor Big Data dan tinjauan produk mereka. Sesion Q/A:
- Accenture
- APTEAN (Dulu CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Dulu 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Bagian dari EMC)
Persyaratan
- Pengetahuan dasar tentang operasi bisnis dan sistem data di Pemerintah dalam bidangnya
- Pengetahuan dasar tentang SQL/Oracle atau basis data relasional
- Pengetahuan dasar tentang Statistik (di level Spreadsheet)
35 Jam
Testimoni (1)
Kemampuan pelatih untuk menyelaraskan kursus dengan persyaratan organisasi, bukan hanya menyediakan kursus demi menyampaikannya.
Masilonyane - Revenue Services Lesotho
Kursus - Big Data Business Intelligence for Govt. Agencies
Diterjemahkan Mesin