Kerangka Materi
Hari ke 01
Tinjauan Umum Big Data Business Intelligence untuk Analisis Intelijen Kriminal
- Studi Kasus dari Penegakan Hukum - Kepolisian Prediktif
- Big Data tingkat adopsi di Badan Penegak Hukum dan bagaimana mereka menyelaraskan operasi masa depan mereka di sekitar Big Data Predictive Analytics
- Solusi teknologi baru seperti sensor tembakan, video pengawasan, dan media sosial
- Menggunakan teknologi Big Data untuk mengurangi kelebihan informasi
- Berinteraksi Big Data dengan data lama
- Pemahaman dasar tentang teknologi pendukung dalam analitik prediktif
- Data Integration & Visualisasi dasbor
- Manajemen penipuan
- Business Rules dan Deteksi Penipuan
- Deteksi dan pembuatan profil ancaman
- Analisis biaya manfaat untuk implementasi Big Data
Pengantar Big Data
- Karakteristik utama Big Data -- Volume, Variasi, Kecepatan dan Kebenaran.
- Arsitektur MPP (Pemrosesan Paralel Masif)
- Data Warehouses – skema statis, kumpulan data yang berkembang perlahan
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica dll.
- Hadoop Solusi Berbasis – tidak ada kondisi pada struktur dataset.
- Pola khas: HDFS, MapReduce (crunch), mengambil dari HDFS
- Apache Spark untuk pemrosesan aliran
- Batch- cocok untuk analitis/non-interaktif
- Volume : Data streaming CEP
- Pilihan umum – Produk CEP (misalnya Infostreams, Apama, MarkLogic dll)
- Kurang siap produksi – Storm/S4
- NoSQL Databases – (kolom dan nilai kunci): Paling cocok sebagai tambahan analitis untuk gudang data/basis data
NoSQL solusi
- Toko KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Toko KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Penyimpanan KV (Hierarkis) - GT.m, Cache
- Toko KV (Sudah Dipesan) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Koherensi, Infinispan, EXtremeScale, JBossCache, Kecepatan, Terracoqua
- Toko Tuple - Gigaspaces, Coord, Apache River
- Objek Database - ZopeDB, DB40, Shoal
- Penyimpanan Dokumen - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Penyimpanan Kolom Lebar - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varietas Data: Pendahuluan pada Data Cleaning masalah dalam Big Data
- RDBMS – struktur/skema statis, tidak mendukung lingkungan yang tangkas dan eksploratif.
- NoSQL – semi terstruktur, struktur yang cukup untuk menyimpan data tanpa skema yang tepat sebelum menyimpan data
- Masalah pembersihan data
Hadoop
- Kapan harus memilih Hadoop?
- TERSTRUKTUR - Gudang data/basis data perusahaan dapat menyimpan data dalam jumlah besar (dengan biaya) tetapi memaksakan struktur (tidak baik untuk eksplorasi aktif)
- Data SEMI TERSTRUKTUR – sulit dilakukan menggunakan solusi tradisional (DW/DB)
- Pergudangan data = usaha BESAR dan statis bahkan setelah implementasi
- Untuk variasi & volume data, diproses pada perangkat keras komoditas – HADOOP
- Komoditas H/W yang dibutuhkan untuk membuat Cluster Hadoop
Pengantar Map Reduce /HDFS
- MapReduce – mendistribusikan komputasi ke beberapa server
- HDFS – membuat data tersedia secara lokal untuk proses komputasi (dengan redundansi)
- Data – bisa tidak terstruktur/tanpa skema (tidak seperti RDBMS)
- Tanggung jawab pengembang untuk memahami data
- Programming MapReduce = bekerja dengan Java (pro/kontra), memuat data secara manual ke HDFS
Hari ke 02
Big Data Ekosistem -- Membangun Big Data ETL (Ekstrak, Transformasi, Muat) -- Alat Big Data mana yang digunakan dan kapan?
- Hadoop vs. Solusi lain NoSQL
- Untuk akses data acak dan interaktif
- Hbase (database berorientasi kolom) di atas Hadoop
- Akses acak ke data tetapi ada pembatasan yang diberlakukan (maks 1 PB)
- Tidak bagus untuk analitik ad-hoc, bagus untuk pencatatan, penghitungan, deret waktu
- Sqoop - Impor dari database ke Hive atau HDFS (akses JDBC/ODBC)
- Flume – Mengalirkan data (misalnya data log) ke HDFS
Sistem Besar Data Management
- Komponen yang bergerak, node komputasi mulai/gagal :ZooKeeper - Untuk layanan konfigurasi/koordinasi/penamaan
- Alur kerja/pipa yang kompleks: Oozie – mengelola alur kerja, dependensi, rantai daisy
- Menyebarkan, mengonfigurasi, manajemen kluster, pemutakhiran, dll. (admin sistem) :Ambari
- Di Awan : Berputar
Predictive Analytics -- Teknik Dasar dan Machine Learning berdasarkan Business Intelligence
- Pengantar Machine Learning
- Mempelajari teknik klasifikasi
- Prediksi Bayesian -- menyiapkan file pelatihan
- Mesin Vektor Pendukung
- Aljabar Pohon-p KNN & penambangan vertikal
- Neural Networks
- Big Data masalah variabel besar -- Hutan acak (RF)
- Big Data Masalah otomatisasi – Multi-model ensemble RF
- Otomasi melalui Soft10-M
- Alat analisis teks-Treeminer
- Agile belajar
- Pembelajaran berbasis agen
- Pembelajaran terdistribusi
- Pengantar Alat Sumber Terbuka untuk Analisis Prediktif: R, Python, Rapidminer, Mahut
Predictive Analytics Ekosistem dan Aplikasinya dalam Analisis Intelijen Kriminal
- Teknologi dan proses investigasi
- Analisis wawasan
- Analisis visualisasi
- Analisis prediktif terstruktur
- Analisis prediktif tak terstruktur
- Profil ancaman/penipu/vendor
- Mesin Rekomendasi
- Deteksi pola
- Penemuan Aturan/Skenario – kegagalan, penipuan, pengoptimalan
- Penemuan akar penyebab
- Analisis sentimen
- Analisis CRM
- Analisis jaringan
- Analisis teks untuk memperoleh wawasan dari transkrip, pernyataan saksi, obrolan internet, dll.
- Tinjauan dengan bantuan teknologi
- Analisis penipuan
- Analisis Waktu Nyata
Hari ke 03
Analisis Real Time dan Scalable Selama Hadoop
- Mengapa algoritma analitik umum gagal di Hadoop/HDFS
- Apache Hama- untuk komputasi terdistribusi Sinkron Massal
- Apache SPARK- untuk komputasi cluster dan analitik waktu nyata
- CMU Graphics Lab2 - Pendekatan asinkron berbasis grafik untuk komputasi terdistribusi
- KNN p -- Pendekatan berbasis aljabar dari Treeminer untuk mengurangi biaya operasi perangkat keras
Alat untuk eDiscovery dan Forensik
- eDiscovery melalui Big Data vs. Data lama – perbandingan biaya dan kinerja
- Pengkodean prediktif dan Tinjauan Berbantuan Teknologi (TAR)
- Demo langsung vMiner untuk memahami bagaimana TAR memungkinkan penemuan yang lebih cepat
- Pengindeksan lebih cepat melalui HDFS – Kecepatan data
- NLP (Pemrosesan Bahasa Alami) – produk dan teknik sumber terbuka
- eDiscovery dalam bahasa asing -- teknologi untuk pemrosesan bahasa asing
Big Data BI untuk Cyber Security – Mendapatkan tampilan 360 derajat, pengumpulan data cepat, dan identifikasi ancaman
- Memahami dasar-dasar analitik keamanan -- permukaan serangan, kesalahan konfigurasi keamanan, pertahanan host
- Infrastruktur jaringan / Pipa data besar / Respons ETL untuk analitik waktu nyata
- Preskriptif vs prediktif – Aturan tetap vs penemuan otomatis aturan ancaman dari Meta data
Mengumpulkan data yang berbeda untuk Analisis Intelijen Kriminal
- Menggunakan IoT (Internet of Things) sebagai sensor untuk menangkap data
- Memanfaatkan Citra Satelit untuk Pengawasan Domestik
- Menggunakan pengawasan dan data gambar untuk identifikasi kriminal
- Teknologi pengumpulan data lainnya -- drone, kamera tubuh, sistem penandaan GPS, dan teknologi pencitraan termal
- Menggabungkan pengambilan data otomatis dengan data yang diperoleh dari informan, interogasi, dan penelitian
- Forecasting aktivitas kriminal
Hari ke 04
Pencegahan Penipuan BI dari Big Data di Analisis Penipuan
- Klasifikasi Dasar Analisis Penipuan -- Analisis Berbasis Aturan vs Analisis Prediktif
- Pembelajaran mesin yang diawasi vs tanpa pengawasan untuk deteksi pola penipuan
- Business untuk penipuan bisnis, penipuan klaim medis, penipuan asuransi, penghindaran pajak dan pencucian uang
Social Media Analisis -- Pengumpulan dan analisis intelijen
- Bagaimana Social Media digunakan oleh para penjahat untuk mengorganisasi, merekrut dan merencanakan
- Big Data ETL API untuk mengekstrak data media sosial
- Teks, gambar, metadata dan video
- Analisis sentimen dari umpan media sosial
- Pemfilteran kontekstual dan non-kontekstual dari umpan media sosial
- Social Media Dashboard untuk mengintegrasikan beragam media sosial
- Profiling otomatis profil media sosial
- Demo langsung setiap analitik akan diberikan melalui Alat Treeminer
Big Data Analisis dalam pemrosesan gambar dan umpan video
- Teknik Penyimpanan Gambar dalam Big Data -- Solusi penyimpanan untuk data yang melebihi petabyte
- LTFS (Sistem Berkas Pita Linier) dan LTO (Sistem Berkas Pita Linier Terbuka)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- solusi penyimpanan berlapis untuk data gambar besar
- Dasar-dasar analisis gambar
- Pengenalan objek
- Segmentasi gambar
- Pelacakan gerakan
- Rekonstruksi gambar 3-D
Biometrik, DNA dan Program Identifikasi Generasi Berikutnya
- Selain sidik jari dan pengenalan wajah
- Pengenalan ucapan, penekanan tombol (menganalisis pola pengetikan pengguna) dan CODIS (Sistem Indeks DNA gabungan)
- Lebih dari sekadar pencocokan DNA: menggunakan fenotipe DNA forensik untuk membuat wajah dari sampel DNA
Big Data Dashboard untuk akses cepat berbagai data dan tampilan :
- Integrasi platform aplikasi yang ada dengan Big Data Dashboard
- Big Data manajemen
- Studi Kasus Dashboard Big Data: Tableau dan Pentaho
- Gunakan aplikasi Big Data untuk mendorong layanan berbasis lokasi di Govt.
- Sistem pelacakan dan manajemen
Hari ke 05
Bagaimana membenarkan Big Data implementasi BI dalam suatu organisasi:
- Menentukan ROI (Return on Investment) untuk penerapan Big Data
- Studi kasus untuk menghemat Waktu Analis dalam pengumpulan dan persiapan Data – meningkatkan produktivitas
- Keuntungan pendapatan dari biaya lisensi basis data yang lebih rendah
- Keuntungan pendapatan dari layanan berbasis lokasi
- Penghematan biaya dari pencegahan penipuan
- Pendekatan spreadsheet terintegrasi untuk menghitung perkiraan biaya vs. Keuntungan/penghematan pendapatan dari implementasi Big Data.
Prosedur Langkah demi Langkah untuk mengganti sistem data lama dengan Sistem Big Data
- Big Data Peta Jalan Migrasi
- Informasi penting apa yang dibutuhkan sebelum membangun arsitektur sistem Big Data?
- Apa saja cara menghitung Volume, Kecepatan, Variasi dan Kebenaran data?
- Cara memperkirakan pertumbuhan data
- Studi kasus
Ulasan Big Data Vendor dan ulasan produk mereka.
- Bahasa Indonesia: Accenture
- APTEAN (Sebelumnya Perangkat Lunak CDC)
- Cisco Sistem
- awan
- Dell
- EMC
- GoPerusahaan odData
- Jambu biji
- Sistem Data Hitachi
- Pabrik Horton
- HP
- Bahasa Indonesia: IBM
- Informatika
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Sebelumnya 10Gen)
- MU Sigma
- Aplikasi NetApp
- Solusi Opera
- Oracle
- Pentaho
- Platform
- Qliktek
- Kuantum
- Ruang rak
- Analisis Revolusi
- Salesforce
- SAP
- SAS Institut
- Rasa sakit
- Perangkat Lunak AG/Terakota
- Otomatisasi Soft10
- Splunk
- Sqrrl
- Supermikro
- Tableau Perangkat Lunak
- Teradata
- Analisis Berpikir Besar
- Sistem Tanda Pasang Surut
- Penambang Pohon
- VMware (Bagian dari EMC)
Sesi Tanya Jawab
Persyaratan
- Pengetahuan tentang proses penegakan hukum dan sistem data
- Pemahaman dasar tentang SQL/Oracle atau database relasional
- Pemahaman dasar tentang statistik (pada tingkat Spreadsheet)
Hadirin
- Spesialis penegakan hukum dengan latar belakang teknis
Testimoni (1)
Topik sulit dipaparkan dengan cara sederhana dan ramah pengguna.
Marcin - GE Medical Systems Polska Sp. z o.o.
Kursus - Introduction to Predictive AI
Diterjemahkan Mesin