Prenez contact avec nous

Plan du cours

Chaque session dure 2 heures

Jour 1 : Session 1 : Aperçu des raisons d'adopter le Business Intelligence Big Data dans le gouvernement

  • Études de cas du NIH, du DoE
  • Taux d'adaptation du Big Data dans les agences gouvernementales et comment elles alignent leurs opérations futures autour des analytics prédictifs Big Data
  • Zones d'application à grande échelle au DoD, NSA, IRS, USDA, etc.
  • Interface du Big Data avec les données héritées
  • Compréhension de base des technologies activatrices des analytics prédictifs
  • Intégration des données et visualisation de tableaux de bord
  • Gestion de la fraude
  • Génération de règles d'affaires/détection de fraude
  • Détection de menaces et profilage
  • Analyse coûts-avantages pour la mise en œuvre du Big Data

Jour 1 : Session 2 : Introduction au Big Data-1

  • Caractéristiques principales du Big Data : volume, variété, vélocité et véracité. Architecture MPP pour le volume.
  • Entrepôts de données – schéma statique, ensemble de données à évolution lente
  • Bases de données MPP comme Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Solutions basées sur Hadoop – aucune contrainte sur la structure de l'ensemble de données.
  • Schéma typique : HDFS, MapReduce (crunch), récupération depuis HDFS
  • Lots – adaptés aux analyses non interactives
  • Volume : données en streaming CEP
  • Choix typiques – produits CEP (par exemple, Infostreams, Apama, MarkLogic, etc.)
  • Moins prêts pour la production – Storm/S4
  • Bases de données NoSQL (colonnes et clés-valeurs) : les mieux adaptées comme complément analytique à l'entrepôt de données/base de données

Jour 1 : Session 3 : Introduction au Big Data-2

Solutions NoSQL

  • Stockage KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Stockage KV - Dynamo, Voldemort, Dynomite, SubRecord, MongoDB, DovetailDB
  • Stockage KV (hiérarchique) - GT.m, Cache
  • Stockage KV (ordonné) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracotta
  • Stockage de tuples - Gigaspaces, Coord, Apache River
  • Bases de données d'objets - ZopeDB, DB40, Shoal
  • Stockage de documents - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Bases de données XML, ThruDB, CloudKit, Preserver, Riak-Basho, Scalaris
  • Stockage de colonnes larges - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variantes de données : Introduction au problème de nettoyage des données dans le Big Data

  • SGBDR (RDBMS) – structure/schéma statique, ne favorise pas un environnement agile et exploratoire.
  • NoSQL – semi-structuré, suffisamment de structure pour stocker les données sans schéma exact avant de les stocker
  • Problèmes de nettoyage des données

Jour 1 : Session 4 : Introduction au Big Data-3 : Hadoop

  • Quand choisir Hadoop ?
  • STRUCTURÉ - Les entrepôts/bases de données d'entreprise peuvent stocker d'énormes quantités de données (à un coût) mais imposent une structure (pas idéal pour l'exploration active)
  • Données semi-structurées – difficiles à traiter avec des solutions traditionnelles (entrepôt/base de données)
  • La mise en entrepôt des données = un EFFORT ÉNORME et statique même après la mise en œuvre
  • Pour la variété et le volume des données, traitées sur du matériel standard – HADOOP
  • Matériel standard nécessaire pour créer un cluster Hadoop

Introduction à MapReduce /HDFS

  • MapReduce – répartition du calcul sur plusieurs serveurs
  • HDFS – rendre les données disponibles localement pour le processus de calcul (avec redondance)
  • Données – peuvent être non structurées/sans schéma (contrairement aux SGBDR)
  • Responsabilité du développeur de donner du sens aux données
  • Programmation MapReduce = travail avec Java (avantages/inconvénients), chargement manuel des données dans HDFS

Jour 2 : Session 1 : Écosystème Big Data : construire l'ETL Big Data : univers des outils Big Data – lequel utiliser et quand ?

  • Hadoop vs autres solutions NoSQL
  • Pour un accès interactif et aléatoire aux données
  • Hbase (base de données orientée colonnes) sur Hadoop
  • Accès aléatoire aux données mais avec des restrictions imposées (max 1 Po)
  • Pas idéal pour l'ad hoc analytics, bon pour la journalisation, le comptage, les séries temporelles
  • Sqoop - Importation de bases de données vers Hive ou HDFS (accès JDBC/ODBC)
  • Flume – Flux de données (par exemple, données de journalisation) dans HDFS

Jour 2 : Session 2 : Système de gestion Big Data

  • Éléments mobiles, nœuds de calcul qui démarment/échouent : ZooKeeper - Pour les services de configuration/coordination/naming
  • Pipeline/flux de travail complexe : Oozie – gérer les flux de travail, les dépendances, les chaînes de dépendance
  • Déploiement, configuration, gestion de cluster, mise à niveau, etc. (admin sys) : Ambari
  • Dans le cloud : Whirr

Jour 2 : Session 3 : Analytics prédictifs dans le Business Intelligence -1 : Techniques fondamentales et BI basée sur l'apprentissage automatique :

  • Introduction à l'apprentissage automatique
  • Apprentissage des techniques de classification
  • Prédiction bayésienne - préparation du fichier d'entraînement
  • Machine à vecteurs de support
  • KNN p-Arbre Algèbre et minage vertical
  • Réseau neuronal
  • Problème de grande variable du Big Data - Forêt aléatoire (RF)
  • Problème d'automatisation du Big Data – Forêt aléatoire multi-modèle ensembliste
  • Automatisation via Soft10-M
  • Outil d'analyse de texte - Treeminer
  • Apprentissage agile
  • Apprentissage par agent
  • Apprentissage distribué
  • Introduction aux outils open source pour les analytics prédictifs : R, Rapidminer, Mahout

Jour 2 : Session 4 Écosystème des analytics prédictifs-2 : Problèmes analytiques prédictifs courants dans le gouvernement

  • Analytics d'insight
  • Analytics de visualisation
  • Analytics prédictifs structurés
  • Analytics prédictifs non structurés
  • Profilage des menaces/fraudeurs/fournisseurs
  • Moteur de recommandation
  • Détection de motifs
  • Découverte de règles/scénarios – échec, fraude, optimisation
  • Découverte des causes racines
  • Analyse des sentiments
  • Analytics CRM
  • Analytics réseau
  • Analytics de texte
  • Révision assistée par technologie
  • Analytics de fraude
  • Analytics en temps réel

Jour 3 : Session 1 : Analytics en temps réel et évolutifs sur Hadoop

  • Pourquoi les algorithmes d'analyse courants échouent-ils dans Hadoop/HDFS ?
  • Apache Hama - pour le calcul distribué synchrone par blocs
  • Apache SPARK - pour le calcul de cluster pour les analytics en temps réel
  • CMU Graphics Lab2 - approche asynchrone basée sur les graphes pour le calcul distribué
  • Approche basée sur l'algèbre p-KNN de Treeminer pour réduire le coût matériel des opérations

Jour 3 : Session 2 : Outils pour l'eDiscovery et la médecine légale

  • eDiscovery sur Big Data vs données héritées – une comparaison des coûts et des performances
  • Code prédictif et révision assistée par technologie (TAR)
  • Démonstration en direct d'un produit TAR (vMiner) pour comprendre comment le TAR fonctionne pour une découverte plus rapide
  • Indexation plus rapide via HDFS – vélocité des données
  • Traitement du langage naturel (NLP) ou Traitement automatique des langues – diverses techniques et produits open source
  • eDiscovery dans des langues étrangères – technologies pour le traitement des langues étrangères

Jour 3 : Session 3 : Big Data BI pour la cybersécurité – Comprendre les vues globales à 360 degrés de la collecte rapide de données à l'identification des menaces

  • Compréhension des bases de l'analytique de sécurité – surface d'attaque, mauvaise configuration de la sécurité, défenses d'hôte
  • Infrastructure réseau / grand pipeline de données / ETL de réponse pour les analytics en temps réel
  • Prescriptif vs prédictif – basé sur des règles fixes vs découverte automatique des règles de menace à partir des métadonnées

Jour 3 : Session 4 : Big Data au USDA : Applications dans l'agriculture

  • Introduction à l'IoT (Internet des Objets) pour l'agriculture - Big Data basé sur les capteurs et contrôle
  • Introduction à l'imagerie satellitaire et ses applications dans l'agriculture
  • Intégration des données de capteurs et d'images pour la fertilité des sols, les recommandations de culture et les prévisions
  • Assurance agricole et Big Data
  • Prévision des pertes de cultures

Jour 4 : Session 1 : Prévention de la fraude BI à partir du Big Data dans le gouvernement - Analytics de fraude :

  • Classification de base des analytics de fraude - basé sur des règles vs analytics prédictifs
  • Apprentissage supervisé vs non supervisé pour la détection des motifs de fraude
  • Fraude des fournisseurs/surfacturation des projets
  • Fraude Medicare et Medicaid - techniques de détection de fraude pour le traitement des réclamations
  • Fraudes de remboursement de voyage
  • Fraudes de remboursement de l'IRS
  • Des études de cas et des démonstrations en direct seront fournies chaque fois que les données seront disponibles.

Jour 4 : Session 2 : Analytics des médias sociaux - Rassemblement et analyse de renseignements

  • API ETL Big Data pour extraire les données des médias sociaux
  • Texte, image, métadonnées et vidéo
  • Analyse des sentiments à partir du flux des médias sociaux
  • Filtrage contextuel et non contextuel du flux des médias sociaux
  • Tableau de bord des médias sociaux pour intégrer divers médias sociaux
  • Profilage automatisé des profils des médias sociaux
  • Chaque analyse sera démontrée en direct via l'outil Treeminer.

Jour 4 : Session 3 : Analytics Big Data dans le traitement d'images et les flux vidéo

  • Techniques de stockage d'images dans le Big Data - solutions de stockage pour les données dépassant le pétaoctet
  • LTFS et LTO
  • GPFS-LTFS (solution de stockage en couches pour les grandes données d'images)
  • Fondements de l'analytique d'images
  • Reconnaissance d'objets
  • Segmentation d'images
  • Suivi de mouvement
  • Reconstruction d'images 3D

Jour 4 : Session 4 : Applications du Big Data au NIH :

  • Domains émergents de la bio-informatique
  • Métagenomique et problèmes de minage de Big Data
  • Analytics prédictifs Big Data pour la pharmacogénomique, la métabolomique et la protéomique
  • Big Data dans le processus de génomique en aval
  • Application des analytics prédictifs Big Data dans la santé publique

Tableau de bord Big Data pour un accès rapide aux données diverses et l'affichage :

  • Intégration de la plate-forme d'application existante avec le tableau de bord Big Data
  • Gestion du Big Data
  • Étude de cas du tableau de bord Big Data : Tableau et Pentaho
  • Utiliser une application Big Data pour propulser les services basés sur la localisation dans le gouvernement
  • Système de suivi et gestion

Jour 5 : Session 1 : Comment justifier la mise en œuvre du Business Intelligence Big Data au sein d'une organisation :

  • Définir le ROI pour la mise en œuvre du Big Data
  • Études de cas pour l'économie de temps des analystes pour la collecte et la préparation des données – augmentation du gain de productivité
  • Études de cas de gain de revenus grâce à l'économie du coût des bases de données sous licence
  • Gain de revenus des services basés sur la localisation
  • Économies réalisées grâce à la prévention de la fraude
  • Une approche de feuille de calcul intégrée pour calculer les dépenses approx. vs le gain d'économies/revenus de la mise en œuvre du Big Data.

Jour 5 : Session 2 : Procédure étape par étape pour remplacer le système de données hérité par un système Big Data :

  • Compréhension d'une feuille de route pratique de migration Big Data
  • Quelles informations importantes sont nécessaires avant d'architecturer une mise en œuvre Big Data ?
  • Quelles sont les différentes façons de calculer le volume, la vélocité, la variété et la véracité des données ?
  • Comment estimer la croissance des données ?
  • Études de cas

Jour 5 : Session 4 : Revue des fournisseurs Big Data et examen de leurs produits. Session de questions-réponses :

  • Accenture
  • APTEAN (anciennement CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anciennement 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (filiale de EMC)

Pré requis

  • Connaissance de base du fonctionnement des entreprises et des systèmes de données au gouvernement dans leur domaine
  • Compréhension de base de SQL/Oracle ou des bases de données relationnelles
  • Compréhension de base des statistiques (au niveau des feuilles de calcul)
 35 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (1)

Cours à venir

Catégories Similaires