Eğitim İçeriği
Gün 01
Suç İstihbarat Analizi için Big Data Business Intelligence Genel Bakış
- Kolluk Kuvvetlerinden Vaka Çalışmaları - Öngörücü Polislik
- Kolluk Kuvvetleri Kurumlarında Big Data benimseme oranı ve gelecek operasyonlarını Big Data Predictive Analytics etrafında nasıl hizaladıkları
- Silah sesi sensörleri, gözetim videoları ve sosyal medya gibi yeni teknoloji çözümleri
- Bilgi yükünü azaltmak için Big Data teknolojisini kullanma
- Big Data'ü Eski Verilerle Entegre Etme
- Öngörücü analitikte temel teknolojilerin anlaşılması
- Data Integration & Pano görselleştirme
- Dolandırıcılık yönetimi
- Business Rules ve Dolandırıcılık tespiti
- Tehdit tespiti ve profilleme
- Big Data uygulaması için maliyet-fayda analizi
Big Data'e Giriş
- Big Data'ün temel özellikleri -- Hacim, Çeşitlilik, Hız ve Doğruluk.
- MPP (Kitlesel Paralel İşleme) mimarisi
- Data Warehouses – statik şema, yavaş evrimleşen veri seti
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica vb.
- Hadoop Tabanlı Çözümler – veri setinin yapısı üzerinde koşul yok.
- Tipik desen: HDFS, MapReduce (işleme), HDFS'den alma
- Apache Spark akış işleme için
- Toplu – analitik/etkileşimli olmayan işlemler için uygun
- Hacim : CEP akış verileri
- Tipik seçenekler – CEP ürünleri (örn. Infostreams, Apama, MarkLogic vb.)
- Daha az üretim hazır – Storm/S4
- NoSQL Databases – (sütunlu ve anahtar-değer): Veri ambarı/veritabanına analitik ek olarak en uygun
NoSQL çözümleri
- KV Deposu - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Deposu - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Deposu (Hiyerarşik) - GT.m, Cache
- KV Deposu (Sıralı) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Önbelleği - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Deposu - Gigaspaces, Coord, Apache River
- Nesne Database - ZopeDB, DB40, Shoal
- Belge Deposu - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Geniş Sütunlu Deposu - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Veri Çeşitliliği: Big Data'te Data Cleaning Sorunlarına Giriş
- RDBMS – statik yapı/şema, çevik, keşif ortamını desteklemez.
- NoSQL – yarı yapılandırılmış, veriyi saklamadan önce tam şema olmadan veri saklamaya yetecek yapı
- Veri temizleme sorunları
Hadoop
- Hadoop ne zaman seçilmeli?
- YAPILANDIRILMIŞ - Kurumsal veri ambarları/veritabanları büyük veriyi saklayabilir (bir maliyetle) ancak yapı dayatır (aktif keşif için uygun değil)
- YARI YAPILANDIRILMIŞ veri – geleneksel çözümlerle (DW/DB) gerçekleştirmek zor
- Veri ambarlama = BÜYÜK çaba ve uygulama sonrası statik
- Veri çeşitliliği ve hacmi için, ucuz donanım üzerinde işlenen – HADOOP
- Hadoop Kümesi oluşturmak için ucuz donanım gereklidir
Map Reduce /HDFS'e Giriş
- MapReduce – birden fazla sunucu üzerinde dağıtılmış hesaplama
- HDFS – hesaplama süreci için veriyi yerel olarak erişilebilir hale getirme (yedeklilik ile)
- Veri – yapılandırılmamış/şemasız olabilir (RDBMS'in aksine)
- Geliştiricinin sorumluluğu veriyi anlamlandırmak
- Programming MapReduce = Java ile çalışma (artılar/eksiler), veriyi manuel olarak HDFS'e yükleme
Gün 02
Big Data Ekosistemi -- Big Data ETL (Çıkar, Dönüştür, Yükle) Oluşturma -- Hangi Big Data Araçları Ne Zaman Kullanılır?
- Hadoop vs. Diğer NoSQL çözümler
- Etkileşimli, rastgele veri erişimi için
- Hadoop üzerinde Hbase (sütun yönelimli veritabanı)
- Veriye rastgele erişim ancak kısıtlamalar uygulanır (maksimum 1 PB)
- Ad-hoc analitik için uygun değil, günlük kaydı, sayma, zaman serileri için iyi
- Sqoop - Veritabanlarından Hive veya HDFS'e aktarma (JDBC/ODBC erişimi)
- Flume – Akış verilerini (örn. günlük verileri) HDFS'e aktarma
Büyük Data Management Sistemi
- Hareketli parçalar, hesaplama düğümleri başlatma/başarısız olma :ZooKeeper - Yapılandırma/koordinasyon/isimlendirme hizmetleri için
- Karmaşık boru hattı/iş akışı: Oozie – iş akışını, bağımlılıkları, zincirleme yönetme
- Dağıtma, yapılandırma, küme yönetimi, yükseltme vb. (sistem yöneticisi) :Ambari
- Bulutta : Whirr
Predictive Analytics -- Temel Teknikler ve Machine Learning Tabanlı Business Intelligence
- Machine Learning'e Giriş
- Sınıflandırma tekniklerini öğrenme
- Bayes Tahmini -- bir eğitim dosyası hazırlama
- Destek Vektör Makinesi
- KNN p-Tree Cebiri & dikey madencilik
- Neural Networks
- Big Data büyük değişken problemi -- Rastgele orman (RF)
- Big Data Otomasyon problemi – Çoklu model topluluğu RF
- Soft10-M ile otomasyon
- Metin analitik aracı-Treeminer
- Agile öğrenme
- Ajan tabanlı öğrenme
- Dağıtılmış öğrenme
- Öngörücü analitik için açık kaynak araçlara giriş : R, Python, Rapidminer, Mahut
Predictive Analytics Ekosistemi ve Suç İstihbarat Analizindeki Uygulamaları
- Teknoloji ve soruşturma süreci
- İçgörü analitiği
- Görselleştirme analitiği
- Yapılandırılmış öngörücü analitik
- Yapılandırılmamış öngörücü analitik
- Tehdit/dolandırıcılık/tedarikçi profilleme
- Öneri Motoru
- Desen tespiti
- Kural/Senaryo keşfi – başarısızlık, dolandırıcılık, optimizasyon
- Kök neden keşfi
- Duygu analizi
- CRM analitiği
- Ağ analitiği
- Metin analitiği ile transkriptler, tanık ifadeleri, internet sohbetlerinden içgörü elde etme
- Teknoloji destekli inceleme
- Dolandırıcılık analitiği
- Gerçek Zamanlı Analitik
Gün 03
Hadoop Üzerinde Gerçek Zamanlı ve Scalabilir Analitik
- Yaygın analitik algoritmalar neden Hadoop/HDFS'de başarısız olur?
- Apache Hama- Toplu Senkronize dağıtılmış hesaplama için
- Apache SPARK- Küme hesaplama ve gerçek zamanlı analitik için
- CMU Grafik Laboratuvarı2- Grafik tabanlı asenkron dağıtılmış hesaplama yaklaşımı
- KNN p -- Treeminer'den donanım maliyetini azaltmak için cebirsel yaklaşım
eKeşif ve Adli Bilişim için Araçlar
- Big Data üzerinde eKeşif vs. Eski veri – maliyet ve performans karşılaştırması
- Öngörücü kodlama ve Teknoloji Destekli İnceleme (TAR)
- TAR'ın nasıl daha hızlı keşif sağladığını anlamak için vMiner canlı demo
- HDFS üzerinden daha hızlı indeksleme – Veri hızı
- NLP (Doğal Dil İşleme) – açık kaynak ürünler ve teknikler
- Yabancı dillerde eKeşif -- yabancı dil işleme teknolojisi
Cyber Security için Big Data BI – 360 Derece Görünüm, Hızlı Veri Toplama ve Tehdit Tanımlama
- Güvenlik analitiğinin temellerini anlama -- saldırı yüzeyi, güvenlik yanlış yapılandırması, ana bilgisayar savunmaları
- Ağ altyapısı / Büyük veri borusu / Gerçek zamanlı analitik için yanıt ETL
- Reçete edici vs öngörücü – Sabit kural tabanlı vs Meta veriden tehdit kurallarını otomatik keşfetme
Suç İstihbarat Analizi için Farklı Verilerin Toplanması
- Veri yakalamak için IoT (Nesnelerin İnterneti) kullanımı
- Yerel Gözetim için Uydu Görüntülerini Kullanma
- Suç tanımlama için gözetim ve görüntü verilerini kullanma
- Diğer veri toplama teknolojileri -- insansız hava araçları, vücut kameraları, GPS etiketleme sistemleri ve termal görüntüleme teknolojisi
- Otomatik veri toplamayı muhbirler, sorgulama ve araştırmadan elde edilen verilerle birleştirme
- Forecasting suç faaliyeti
Gün 04
Dolandırıcılık Önleme BI'sı Big Data ile Dolandırıcılık Analitiği
- Dolandırıcılık Analitiğinin temel sınıflandırması -- kural tabanlı vs öngörücü analitik
- Dolandırıcılık deseni tespiti için denetimli vs denetimsiz Makine öğrenmesi
- Business iş dolandırıcılığı, sağlık sigortası dolandırıcılığı, vergi kaçırma ve kara para aklama
Social Media Analitiği -- İstihbarat toplama ve analiz
- Suçluların Social Media'yı organize etme, işe alma ve planlama için nasıl kullandığı
- Sosyal medya verilerini çıkarmak için Big Data ETL API
- Metin, görüntü, meta veri ve video
- Sosyal medya akışından duygu analizi
- Sosyal medya akışının bağlamsal ve bağlamsal olmayan filtrelemesi
- Farklı sosyal medya platformlarını entegre etmek için Social Media Panosu
- Sosyal medya profillerinin otomatik profillemesi
- Her bir analitik için Treeminer aracı üzerinden canlı demo yapılacaktır
Big Data Analitiği ile Görüntü ve Video Akışları
- Big Data'te Görüntü Depolama Teknikleri -- Petabyte'ı aşan veriler için depolama çözümleri
- LTFS (Doğrusal Bant Dosya Sistemi) ve LTO (Doğrusal Bant Açık)
- GPFS-LTFS (Genel Paralel Dosya Sistemi - Doğrusal Bant Dosya Sistemi) -- Büyük görüntü verileri için katmanlı depolama çözümü
- Görüntü analitiğinin temelleri
- Nesne tanıma
- Görüntü bölütleme
- Hareket izleme
- 3-B görüntü yeniden yapılandırma
Biometrikler, DNA ve Yeni Nesil Tanımlama Programları
- Parmak izi ve yüz tanımanın ötesinde
- Ses tanıma, klavye (kullanıcının yazma şeklini analiz etme) ve CODIS (Birleşik DNA İndeks Sistemi)
- DNA eşleştirmenin ötesinde: adli DNA fenotipleme ile DNA örneklerinden yüz oluşturma
Farklı Verilere Hızlı Erişim ve Görüntüleme için Big Data Panosu:
- Mevcut uygulama platformunu Big Data Panosu ile entegre etme
- Big Data yönetimi
- Big Data Panosu Vaka Çalışması: Tableau ve Pentaho
- Govt.'de konum tabanlı hizmetleri itmek için Big Data uygulamasını kullanma
- İzleme sistemi ve yönetimi
Gün 05
Bir kuruluş içinde Big Data BI uygulamasını nasıl haklı çıkarabilirsiniz:
- Big Data uygulaması için ROI (Yatırım Getirisi) tanımlama
- Veri toplama ve hazırlama sürecinde Analist Zamanından Tasarruf Etme Vaka Çalışmaları – verimliliği artırma
- Daha düşük veritabanı lisans maliyetinden elde edilen gelir artışı
- Konum tabanlı hizmetlerden elde edilen gelir artışı
- Dolandırıcılık önlemeden elde edilen maliyet tasarrufu
- Big Data uyg
Kurs İçin Gerekli Önbilgiler
- Kolluk kuvvetleri süreçleri ve veri sistemleri bilgisi
- SQL/Oracle veya ilişkisel veritabanı hakkında temel anlayış
- İstatistikler hakkında temel anlayış (Elektronik Tablo düzeyinde)
Hedef Kitle
- Teknik altyapıya sahip kolluk kuvvetleri uzmanları