Prenez contact avec nous

Plan du cours

Jour 01

Aperçu de l'intelligence économique du Big Data pour l'analyse du renseignement criminel

  • Études de cas du maintien de l'ordre - Police prédictive
  • Taux d'adoption du Big Data dans les agences de maintien de l'ordre et alignement de leurs opérations futures autour de l'analytique prédictive Big Data
  • Solutions technologiques émergentes telles que les capteurs de tirs, les vidéosurveillance et les médias sociaux
  • Utilisation de la technologie Big Data pour atténuer la surcharge informationnelle
  • Interface entre le Big Data et les données legacy
  • Compréhension de base des technologies d'activation de l'analytique prédictive
  • Intégration des données et visualisation de tableaux de bord
  • Gestion de la fraude
  • Règles métier et détection de fraude
  • Détection des menaces et profilage
  • Analyse coûts-avantages pour la mise en œuvre du Big Data

Introduction au Big Data

  • Principales caractéristiques du Big Data -- Volume, Variété, Vélocité et Véracité.
  • Architecture MPP (Massively Parallel Processing)
  • Lacs de données (Data Warehouses) – schéma statique, jeu de données à évolution lente
  • Bases de données MPP : Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Solutions basées sur Hadoop – aucune contrainte sur la structure du jeu de données.
  • Typique : HDFS, MapReduce (traitement), récupération depuis HDFS
  • Apache Spark pour le traitement en streaming
  • Par lots (Batch) – adapté à l'analytique/non interactif
  • Volume : données en streaming CEP
  • Choix typiques – produits CEP (ex. Infostreams, Apama, MarkLogic, etc.)
  • Moins prêts pour la production – Storm/S4
  • Bases de données NoSQL – (colonnes et clé-valeur) : Les mieux adaptées comme complément analytique aux lacs de données/bases de données

Solutions NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, MongoDB, DovetailDB
  • KV Store (Hiérarchique) - GT.m, Cache
  • KV Store (Ordonné) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, ExtremeScale, JBossCache, Velocity, Terracotta
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Bases de données objet - ZopeDB, DB4O, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Bases XML, ThruDB, CloudKit, Preserve, Riak-Basho, Scalaris
  • Large Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variétés de données : Introduction aux problèmes de nettoyage des données dans le Big Data

  • SGBDR – structure/schema statique, ne favorise pas un environnement agile et exploratoire.
  • NoSQL – semi-structuré, assez de structure pour stocker les données sans schéma exact préalable
  • Problèmes de nettoyage des données

Hadoop

  • Quand choisir Hadoop ?
  • STRUCTURÉ - Les lacs de données/bases de données entreprise peuvent stocker des données massives (à un coût) mais imposent une structure (peu adapté à l'exploration active)
  • Données SEMI-STRUCTURÉES – difficiles à traiter avec des solutions traditionnelles (DW/DB)
  • Stockage des données = EFFORT IMMENSE et statique même après implémentation
  • Pour la variété et le volume de données, traité sur matériel standard – HADOOP
  • Matériel standard requis pour créer un cluster Hadoop

Introduction à Map Reduce /HDFS

  • MapReduce – répartir le calcul sur plusieurs serveurs
  • HDFS – rendre les données disponibles localement pour le processus de calcul (avec redondance)
  • Données – peuvent être non structurées/sans schéma (contrairement au SGBDR)
  • Responsabilité du développeur de donner du sens aux données
  • Programmation MapReduce = travail avec Java (avantages/inconvénients), chargement manuel des données dans HDFS

Jour 02

Écosystème Big Data -- Construction de l'ETL Big Data (Extraire, Transformer, Charger) -- Quels outils Big Data utiliser et quand ?

  • Hadoop vs. Autres solutions NoSQL
  • Pour un accès interactif et aléatoire aux données
  • Hbase (base de données orientée colonnes) sur Hadoop
  • Accès aléatoire aux données mais avec des restrictions imposées (max 1 PB)
  • Pas idéal pour l'analytique ad-hoc, bon pour les logs, le comptage, les séries temporelles
  • Sqoop - Importation de bases de données vers Hive ou HDFS (accès JDBC/ODBC)
  • Flume – Données en streaming (ex. données de journalisation) vers HDFS

Système de gestion Big Data

  • Composants mobiles, nœuds de calcul démarrage/arrêt : ZooKeeper - Pour la configuration/coordination/services de nommage
  • Pipeline/workflow complexe : Oozie – gérer le workflow, les dépendances, la chaîne d'appels
  • Déploiement, configuration, gestion de cluster, mise à niveau, etc. (admin sys) : Ambari
  • Dans le Cloud : Whirr

Analytique prédictive -- Techniques fondamentales et intelligence économique basée sur l'apprentissage automatique

  • Introduction à l'apprentissage automatique
  • Apprentissage des techniques de classification
  • Prédiction bayésienne – préparation d'un fichier d'entraînement
  • Machines à vecteurs de soutien (SVM)
  • KNN p-Tree Algebra & minage vertical
  • Réseaux de neurones
  • Problème de grande variable du Big Data – Forêt aléatoire (RF)
  • Problème d'automatisation du Big Data – Forêt aléatoire à modèles multiples
  • Automatisation via Soft10-M
  • Outil d'analyse textuelle - Treeminer
  • Apprentissage agile
  • Apprentissage basé sur agents
  • Apprentissage distribué
  • Introduction aux outils open source pour l'analytique prédictive : R, Python, Rapidminer, Mahout

Écosystème de l'analytique prédictive et son application dans l'analyse du renseignement criminel

  • Technologie et processus d'enquête
  • Analytique d'information
  • Visualisation analytique
  • Analytique prédictive structurée
  • Analytique prédictive non structurée
  • Profilage des menaces/fraude/fournisseur
  • Moteur de recommandation
  • Détection de motifs
  • Découverte de règles/scénarios – échec, fraude, optimisation
  • Découverte de la cause racine
  • Analyse des sentiments
  • Analytique CRM
  • Analytique de réseau
  • Analytique textuelle pour extraire des informations des transcriptions, déclarations de témoins, discussions internet, etc.
  • Examen assisté par technologie
  • Analytique de fraude
  • Analytique en temps réel

Jour 03

Analytique en temps réel et évolutive sur Hadoop

  • Pourquoi les algorithmes analytiques courants échouent dans Hadoop/HDFS
  • Apache Hama - pour le calcul distribué synchrone par paquets (Bulk Synchronous)
  • Apache SPARK - pour le calcul en cluster et l'analytique en temps réel
  • CMU Graphics Lab2 - Approche asynchrone basée sur les graphes pour le calcul distribué
  • KNN p – Approche algébrique de Treeminer pour réduire le coût matériel des opérations

Outils pour eDiscovery et la criminalistique

  • eDiscovery sur Big Data vs. Données legacy – une comparaison des coûts et performances
  • Codage prédictif et examen assisté par technologie (TAR)
  • Démonstration en direct de vMiner pour comprendre comment le TAR permet une découverte plus rapide
  • Indexation plus rapide via HDFS – Vélocité des données
  • PTL (Traitement du Langage Naturel) – produits et techniques open source
  • eDiscovery en langues étrangères – technologie pour le traitement des langues étrangères

BI Big Data pour la cybersécurité – Obtenir une vue à 360 degrés, collecte rapide de données et identification des menaces

  • Comprendre les bases de l'analytique de sécurité – surface d'attaque, configuration de sécurité erronée, défenses hôte
  • Infrastructure réseau / grand pipe de données / ETL de réponse pour l'analytique en temps réel
  • Prescriptif vs prédictif – Règles fixes vs découverte automatique des règles de menace à partir des métadonnées

Collecte de données disparates pour l'analyse du renseignement criminel

  • Utilisation de l'IoT (Internet des Objets) comme capteurs pour la capture de données
  • Utilisation d'images satellite pour la surveillance intérieure
  • Utilisation des données de vidéosurveillance et d'images pour l'identification criminelle
  • Autres technologies de collecte de données -- drones, caméras-piétons, systèmes de géolocalisation GPS et imagerie thermique
  • Combinaison du retrait automatique des données avec les données obtenues auprès d'informateurs, interrogatoires et recherches
  • Prévision des activités criminelles

Jour 04

BI de prévention de la fraude du Big Data dans l'analytique de la fraude

  • Classification de base de l'analytique de la fraude -- basée sur les règles vs analytique prédictive
  • Apprentissage supervisé vs non supervisé pour la détection de motifs de fraude
  • Fraude interentreprises, fraude aux soins médicaux, fraude aux assurances, évasion fiscale et blanchiment d'argent

Analytique des médias sociaux -- Rassemblement et analyse du renseignement

  • Comment les criminels utilisent les médias sociaux pour s'organiser, recruter et planifier
  • API ETL Big Data pour extraire les données des médias sociaux
  • Texte, image, métadonnées et vidéo
  • Analyse des sentiments depuis les flux de médias sociaux
  • Filtrage contextuel et non contextuel du flux de médias sociaux
  • Tableau de bord des médias sociaux pour intégrer divers médias sociaux
  • Profilage automatisé des profils de médias sociaux
  • Chaque démonstration analytique sera donnée via l'outil Treeminer

Analytique Big Data dans le traitement d'images et les flux vidéo

  • Techniques de stockage d'images dans le Big Data -- Solution de stockage pour les données dépassant les pétaoctets
  • LTFS (Linear Tape File System) et LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) – solution de stockage en couches pour les grandes données d'images
  • Fondamentaux de l'analytique d'images
  • Reconnaissance d'objets
  • Segmentation d'images
  • Suivi de mouvement
  • Reconstruction d'images 3D

Biométrie, ADN et Programmes d'Identification de Nouvelle Génération

  • Au-delà de l'empreinte digitale et de la reconnaissance faciale
  • Reconnaissance vocale, empreinte frappe (analyse du schéma de frappe d'un utilisateur) et CODIS (Combined DNA Index System)
  • Au-delà de la correspondance ADN : utilisation de la phénotypage médico-légal de l'ADN pour reconstituer un visage à partir d'échantillons d'ADN

Tableau de bord Big Data pour un accès rapide et l'affichage de diverses données :

  • Intégration de la plateforme d'applications existante avec le tableau de bord Big Data
  • Gestion du Big Data
  • Étude de cas de tableau de bord Big Data : Tableau et Pentaho
  • Utiliser l'application Big Data pour pousser les services basés sur la localisation dans le secteur gouvernemental
  • Système de suivi et gestion

Jour 05

Comment justifier la mise en œuvre de la BI Big Data au sein d'une organisation :

  • Définir le ROI (Retour sur Investissement) pour la mise en œuvre du Big Data
  • Études de cas pour gagner du temps aux analystes dans la collecte et la préparation des données – augmentation de la productivité
  • Gain de revenus grâce à la réduction des coûts de licence de base de données
  • Gain de revenus grâce aux services basés sur la localisation
  • Économies de coûts grâce à la prévention de la fraude
  • Une approche de tableur intégrée pour calculer les dépenses approximatives vs. les gains/économies de revenus issus de la mise en œuvre du Big Data.

Procédure étape par étape pour remplacer un système de données legacy par un système Big Data

  • Feuille de route de migration Big Data
  • Quelles informations critiques sont nécessaires avant d'architecturer un système Big Data ?
  • Quelles sont les différentes façons de calculer le Volume, la Vélocité, la Variété et la Véracité des données
  • Comment estimer la croissance des données
  • Études de cas

Revue des fournisseurs Big Data et de leurs produits.

  • Accenture
  • APTEAN (anciennement CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anciennement 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Partie d'EMC)

Séance de questions/réponses

Pré requis

  • Connaissance des processus de maintien de l'ordre et des systèmes de données
  • Compréhension de base de SQL/Oracle ou des bases de données relationnelles
  • Compréhension de base des statistiques (niveau tableur)

Public cible

  • Spécialistes du maintien de l'ordre ayant un profil technique
 35 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (3)

Cours à venir

Catégories Similaires