Plan du cours
Jour 01
Aperçu de l'intelligence économique du Big Data pour l'analyse du renseignement criminel
- Études de cas du maintien de l'ordre - Police prédictive
- Taux d'adoption du Big Data dans les agences de maintien de l'ordre et alignement de leurs opérations futures autour de l'analytique prédictive Big Data
- Solutions technologiques émergentes telles que les capteurs de tirs, les vidéosurveillance et les médias sociaux
- Utilisation de la technologie Big Data pour atténuer la surcharge informationnelle
- Interface entre le Big Data et les données legacy
- Compréhension de base des technologies d'activation de l'analytique prédictive
- Intégration des données et visualisation de tableaux de bord
- Gestion de la fraude
- Règles métier et détection de fraude
- Détection des menaces et profilage
- Analyse coûts-avantages pour la mise en œuvre du Big Data
Introduction au Big Data
- Principales caractéristiques du Big Data -- Volume, Variété, Vélocité et Véracité.
- Architecture MPP (Massively Parallel Processing)
- Lacs de données (Data Warehouses) – schéma statique, jeu de données à évolution lente
- Bases de données MPP : Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Solutions basées sur Hadoop – aucune contrainte sur la structure du jeu de données.
- Typique : HDFS, MapReduce (traitement), récupération depuis HDFS
- Apache Spark pour le traitement en streaming
- Par lots (Batch) – adapté à l'analytique/non interactif
- Volume : données en streaming CEP
- Choix typiques – produits CEP (ex. Infostreams, Apama, MarkLogic, etc.)
- Moins prêts pour la production – Storm/S4
- Bases de données NoSQL – (colonnes et clé-valeur) : Les mieux adaptées comme complément analytique aux lacs de données/bases de données
Solutions NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, MongoDB, DovetailDB
- KV Store (Hiérarchique) - GT.m, Cache
- KV Store (Ordonné) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, ExtremeScale, JBossCache, Velocity, Terracotta
- Tuple Store - Gigaspaces, Coord, Apache River
- Bases de données objet - ZopeDB, DB4O, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Bases XML, ThruDB, CloudKit, Preserve, Riak-Basho, Scalaris
- Large Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variétés de données : Introduction aux problèmes de nettoyage des données dans le Big Data
- SGBDR – structure/schema statique, ne favorise pas un environnement agile et exploratoire.
- NoSQL – semi-structuré, assez de structure pour stocker les données sans schéma exact préalable
- Problèmes de nettoyage des données
Hadoop
- Quand choisir Hadoop ?
- STRUCTURÉ - Les lacs de données/bases de données entreprise peuvent stocker des données massives (à un coût) mais imposent une structure (peu adapté à l'exploration active)
- Données SEMI-STRUCTURÉES – difficiles à traiter avec des solutions traditionnelles (DW/DB)
- Stockage des données = EFFORT IMMENSE et statique même après implémentation
- Pour la variété et le volume de données, traité sur matériel standard – HADOOP
- Matériel standard requis pour créer un cluster Hadoop
Introduction à Map Reduce /HDFS
- MapReduce – répartir le calcul sur plusieurs serveurs
- HDFS – rendre les données disponibles localement pour le processus de calcul (avec redondance)
- Données – peuvent être non structurées/sans schéma (contrairement au SGBDR)
- Responsabilité du développeur de donner du sens aux données
- Programmation MapReduce = travail avec Java (avantages/inconvénients), chargement manuel des données dans HDFS
Jour 02
Écosystème Big Data -- Construction de l'ETL Big Data (Extraire, Transformer, Charger) -- Quels outils Big Data utiliser et quand ?
- Hadoop vs. Autres solutions NoSQL
- Pour un accès interactif et aléatoire aux données
- Hbase (base de données orientée colonnes) sur Hadoop
- Accès aléatoire aux données mais avec des restrictions imposées (max 1 PB)
- Pas idéal pour l'analytique ad-hoc, bon pour les logs, le comptage, les séries temporelles
- Sqoop - Importation de bases de données vers Hive ou HDFS (accès JDBC/ODBC)
- Flume – Données en streaming (ex. données de journalisation) vers HDFS
Système de gestion Big Data
- Composants mobiles, nœuds de calcul démarrage/arrêt : ZooKeeper - Pour la configuration/coordination/services de nommage
- Pipeline/workflow complexe : Oozie – gérer le workflow, les dépendances, la chaîne d'appels
- Déploiement, configuration, gestion de cluster, mise à niveau, etc. (admin sys) : Ambari
- Dans le Cloud : Whirr
Analytique prédictive -- Techniques fondamentales et intelligence économique basée sur l'apprentissage automatique
- Introduction à l'apprentissage automatique
- Apprentissage des techniques de classification
- Prédiction bayésienne – préparation d'un fichier d'entraînement
- Machines à vecteurs de soutien (SVM)
- KNN p-Tree Algebra & minage vertical
- Réseaux de neurones
- Problème de grande variable du Big Data – Forêt aléatoire (RF)
- Problème d'automatisation du Big Data – Forêt aléatoire à modèles multiples
- Automatisation via Soft10-M
- Outil d'analyse textuelle - Treeminer
- Apprentissage agile
- Apprentissage basé sur agents
- Apprentissage distribué
- Introduction aux outils open source pour l'analytique prédictive : R, Python, Rapidminer, Mahout
Écosystème de l'analytique prédictive et son application dans l'analyse du renseignement criminel
- Technologie et processus d'enquête
- Analytique d'information
- Visualisation analytique
- Analytique prédictive structurée
- Analytique prédictive non structurée
- Profilage des menaces/fraude/fournisseur
- Moteur de recommandation
- Détection de motifs
- Découverte de règles/scénarios – échec, fraude, optimisation
- Découverte de la cause racine
- Analyse des sentiments
- Analytique CRM
- Analytique de réseau
- Analytique textuelle pour extraire des informations des transcriptions, déclarations de témoins, discussions internet, etc.
- Examen assisté par technologie
- Analytique de fraude
- Analytique en temps réel
Jour 03
Analytique en temps réel et évolutive sur Hadoop
- Pourquoi les algorithmes analytiques courants échouent dans Hadoop/HDFS
- Apache Hama - pour le calcul distribué synchrone par paquets (Bulk Synchronous)
- Apache SPARK - pour le calcul en cluster et l'analytique en temps réel
- CMU Graphics Lab2 - Approche asynchrone basée sur les graphes pour le calcul distribué
- KNN p – Approche algébrique de Treeminer pour réduire le coût matériel des opérations
Outils pour eDiscovery et la criminalistique
- eDiscovery sur Big Data vs. Données legacy – une comparaison des coûts et performances
- Codage prédictif et examen assisté par technologie (TAR)
- Démonstration en direct de vMiner pour comprendre comment le TAR permet une découverte plus rapide
- Indexation plus rapide via HDFS – Vélocité des données
- PTL (Traitement du Langage Naturel) – produits et techniques open source
- eDiscovery en langues étrangères – technologie pour le traitement des langues étrangères
BI Big Data pour la cybersécurité – Obtenir une vue à 360 degrés, collecte rapide de données et identification des menaces
- Comprendre les bases de l'analytique de sécurité – surface d'attaque, configuration de sécurité erronée, défenses hôte
- Infrastructure réseau / grand pipe de données / ETL de réponse pour l'analytique en temps réel
- Prescriptif vs prédictif – Règles fixes vs découverte automatique des règles de menace à partir des métadonnées
Collecte de données disparates pour l'analyse du renseignement criminel
- Utilisation de l'IoT (Internet des Objets) comme capteurs pour la capture de données
- Utilisation d'images satellite pour la surveillance intérieure
- Utilisation des données de vidéosurveillance et d'images pour l'identification criminelle
- Autres technologies de collecte de données -- drones, caméras-piétons, systèmes de géolocalisation GPS et imagerie thermique
- Combinaison du retrait automatique des données avec les données obtenues auprès d'informateurs, interrogatoires et recherches
- Prévision des activités criminelles
Jour 04
BI de prévention de la fraude du Big Data dans l'analytique de la fraude
- Classification de base de l'analytique de la fraude -- basée sur les règles vs analytique prédictive
- Apprentissage supervisé vs non supervisé pour la détection de motifs de fraude
- Fraude interentreprises, fraude aux soins médicaux, fraude aux assurances, évasion fiscale et blanchiment d'argent
Analytique des médias sociaux -- Rassemblement et analyse du renseignement
- Comment les criminels utilisent les médias sociaux pour s'organiser, recruter et planifier
- API ETL Big Data pour extraire les données des médias sociaux
- Texte, image, métadonnées et vidéo
- Analyse des sentiments depuis les flux de médias sociaux
- Filtrage contextuel et non contextuel du flux de médias sociaux
- Tableau de bord des médias sociaux pour intégrer divers médias sociaux
- Profilage automatisé des profils de médias sociaux
- Chaque démonstration analytique sera donnée via l'outil Treeminer
Analytique Big Data dans le traitement d'images et les flux vidéo
- Techniques de stockage d'images dans le Big Data -- Solution de stockage pour les données dépassant les pétaoctets
- LTFS (Linear Tape File System) et LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) – solution de stockage en couches pour les grandes données d'images
- Fondamentaux de l'analytique d'images
- Reconnaissance d'objets
- Segmentation d'images
- Suivi de mouvement
- Reconstruction d'images 3D
Biométrie, ADN et Programmes d'Identification de Nouvelle Génération
- Au-delà de l'empreinte digitale et de la reconnaissance faciale
- Reconnaissance vocale, empreinte frappe (analyse du schéma de frappe d'un utilisateur) et CODIS (Combined DNA Index System)
- Au-delà de la correspondance ADN : utilisation de la phénotypage médico-légal de l'ADN pour reconstituer un visage à partir d'échantillons d'ADN
Tableau de bord Big Data pour un accès rapide et l'affichage de diverses données :
- Intégration de la plateforme d'applications existante avec le tableau de bord Big Data
- Gestion du Big Data
- Étude de cas de tableau de bord Big Data : Tableau et Pentaho
- Utiliser l'application Big Data pour pousser les services basés sur la localisation dans le secteur gouvernemental
- Système de suivi et gestion
Jour 05
Comment justifier la mise en œuvre de la BI Big Data au sein d'une organisation :
- Définir le ROI (Retour sur Investissement) pour la mise en œuvre du Big Data
- Études de cas pour gagner du temps aux analystes dans la collecte et la préparation des données – augmentation de la productivité
- Gain de revenus grâce à la réduction des coûts de licence de base de données
- Gain de revenus grâce aux services basés sur la localisation
- Économies de coûts grâce à la prévention de la fraude
- Une approche de tableur intégrée pour calculer les dépenses approximatives vs. les gains/économies de revenus issus de la mise en œuvre du Big Data.
Procédure étape par étape pour remplacer un système de données legacy par un système Big Data
- Feuille de route de migration Big Data
- Quelles informations critiques sont nécessaires avant d'architecturer un système Big Data ?
- Quelles sont les différentes façons de calculer le Volume, la Vélocité, la Variété et la Véracité des données
- Comment estimer la croissance des données
- Études de cas
Revue des fournisseurs Big Data et de leurs produits.
- Accenture
- APTEAN (anciennement CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anciennement 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Partie d'EMC)
Séance de questions/réponses
Pré requis
- Connaissance des processus de maintien de l'ordre et des systèmes de données
- Compréhension de base de SQL/Oracle ou des bases de données relationnelles
- Compréhension de base des statistiques (niveau tableur)
Public cible
- Spécialistes du maintien de l'ordre ayant un profil technique
Nos clients témoignent (3)
les bases et a adoré les documents et exercices préparés
Rekha Nallam - GE Medical Systems Polska Sp. z o.o.
Formation - Introduction to Predictive AI
Traduction automatique
Deepthi était extrêmement attentive à mes besoins, elle savait quand ajouter des couches de complexité et quand ralentir pour adopter une approche plus structurée. Deepthi a vraiment travaillé à mon rythme et s'est assurée que je puisse utiliser les nouvelles fonctions/outils moi-même en me montrant d'abord, puis en me laissant les recréer. Cela a vraiment aidé à ancrer la formation. Je ne suis pas plus heureux des résultats de cette formation et du niveau d'expertise de Deepthi !
Deepthi - Invest Northern Ireland
Formation - IBM Cognos Analytics
Traduction automatique
La diversité des sujets abordés