Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Chaque session dure 2 heures
Jour 1 : Session 1 : Aperçu des raisons d'adopter le Business Intelligence Big Data dans le gouvernement
- Études de cas du NIH, du DoE
- Taux d'adaptation du Big Data dans les agences gouvernementales et comment elles alignent leurs opérations futures autour des analytics prédictifs Big Data
- Zones d'application à grande échelle au DoD, NSA, IRS, USDA, etc.
- Interface du Big Data avec les données héritées
- Compréhension de base des technologies activatrices des analytics prédictifs
- Intégration des données et visualisation de tableaux de bord
- Gestion de la fraude
- Génération de règles d'affaires/détection de fraude
- Détection de menaces et profilage
- Analyse coûts-avantages pour la mise en œuvre du Big Data
Jour 1 : Session 2 : Introduction au Big Data-1
- Caractéristiques principales du Big Data : volume, variété, vélocité et véracité. Architecture MPP pour le volume.
- Entrepôts de données – schéma statique, ensemble de données à évolution lente
- Bases de données MPP comme Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Solutions basées sur Hadoop – aucune contrainte sur la structure de l'ensemble de données.
- Schéma typique : HDFS, MapReduce (crunch), récupération depuis HDFS
- Lots – adaptés aux analyses non interactives
- Volume : données en streaming CEP
- Choix typiques – produits CEP (par exemple, Infostreams, Apama, MarkLogic, etc.)
- Moins prêts pour la production – Storm/S4
- Bases de données NoSQL (colonnes et clés-valeurs) : les mieux adaptées comme complément analytique à l'entrepôt de données/base de données
Jour 1 : Session 3 : Introduction au Big Data-2
Solutions NoSQL
- Stockage KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Stockage KV - Dynamo, Voldemort, Dynomite, SubRecord, MongoDB, DovetailDB
- Stockage KV (hiérarchique) - GT.m, Cache
- Stockage KV (ordonné) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracotta
- Stockage de tuples - Gigaspaces, Coord, Apache River
- Bases de données d'objets - ZopeDB, DB40, Shoal
- Stockage de documents - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Bases de données XML, ThruDB, CloudKit, Preserver, Riak-Basho, Scalaris
- Stockage de colonnes larges - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variantes de données : Introduction au problème de nettoyage des données dans le Big Data
- SGBDR (RDBMS) – structure/schéma statique, ne favorise pas un environnement agile et exploratoire.
- NoSQL – semi-structuré, suffisamment de structure pour stocker les données sans schéma exact avant de les stocker
- Problèmes de nettoyage des données
Jour 1 : Session 4 : Introduction au Big Data-3 : Hadoop
- Quand choisir Hadoop ?
- STRUCTURÉ - Les entrepôts/bases de données d'entreprise peuvent stocker d'énormes quantités de données (à un coût) mais imposent une structure (pas idéal pour l'exploration active)
- Données semi-structurées – difficiles à traiter avec des solutions traditionnelles (entrepôt/base de données)
- La mise en entrepôt des données = un EFFORT ÉNORME et statique même après la mise en œuvre
- Pour la variété et le volume des données, traitées sur du matériel standard – HADOOP
- Matériel standard nécessaire pour créer un cluster Hadoop
Introduction à MapReduce /HDFS
- MapReduce – répartition du calcul sur plusieurs serveurs
- HDFS – rendre les données disponibles localement pour le processus de calcul (avec redondance)
- Données – peuvent être non structurées/sans schéma (contrairement aux SGBDR)
- Responsabilité du développeur de donner du sens aux données
- Programmation MapReduce = travail avec Java (avantages/inconvénients), chargement manuel des données dans HDFS
Jour 2 : Session 1 : Écosystème Big Data : construire l'ETL Big Data : univers des outils Big Data – lequel utiliser et quand ?
- Hadoop vs autres solutions NoSQL
- Pour un accès interactif et aléatoire aux données
- Hbase (base de données orientée colonnes) sur Hadoop
- Accès aléatoire aux données mais avec des restrictions imposées (max 1 Po)
- Pas idéal pour l'ad hoc analytics, bon pour la journalisation, le comptage, les séries temporelles
- Sqoop - Importation de bases de données vers Hive ou HDFS (accès JDBC/ODBC)
- Flume – Flux de données (par exemple, données de journalisation) dans HDFS
Jour 2 : Session 2 : Système de gestion Big Data
- Éléments mobiles, nœuds de calcul qui démarment/échouent : ZooKeeper - Pour les services de configuration/coordination/naming
- Pipeline/flux de travail complexe : Oozie – gérer les flux de travail, les dépendances, les chaînes de dépendance
- Déploiement, configuration, gestion de cluster, mise à niveau, etc. (admin sys) : Ambari
- Dans le cloud : Whirr
Jour 2 : Session 3 : Analytics prédictifs dans le Business Intelligence -1 : Techniques fondamentales et BI basée sur l'apprentissage automatique :
- Introduction à l'apprentissage automatique
- Apprentissage des techniques de classification
- Prédiction bayésienne - préparation du fichier d'entraînement
- Machine à vecteurs de support
- KNN p-Arbre Algèbre et minage vertical
- Réseau neuronal
- Problème de grande variable du Big Data - Forêt aléatoire (RF)
- Problème d'automatisation du Big Data – Forêt aléatoire multi-modèle ensembliste
- Automatisation via Soft10-M
- Outil d'analyse de texte - Treeminer
- Apprentissage agile
- Apprentissage par agent
- Apprentissage distribué
- Introduction aux outils open source pour les analytics prédictifs : R, Rapidminer, Mahout
Jour 2 : Session 4 Écosystème des analytics prédictifs-2 : Problèmes analytiques prédictifs courants dans le gouvernement
- Analytics d'insight
- Analytics de visualisation
- Analytics prédictifs structurés
- Analytics prédictifs non structurés
- Profilage des menaces/fraudeurs/fournisseurs
- Moteur de recommandation
- Détection de motifs
- Découverte de règles/scénarios – échec, fraude, optimisation
- Découverte des causes racines
- Analyse des sentiments
- Analytics CRM
- Analytics réseau
- Analytics de texte
- Révision assistée par technologie
- Analytics de fraude
- Analytics en temps réel
Jour 3 : Session 1 : Analytics en temps réel et évolutifs sur Hadoop
- Pourquoi les algorithmes d'analyse courants échouent-ils dans Hadoop/HDFS ?
- Apache Hama - pour le calcul distribué synchrone par blocs
- Apache SPARK - pour le calcul de cluster pour les analytics en temps réel
- CMU Graphics Lab2 - approche asynchrone basée sur les graphes pour le calcul distribué
- Approche basée sur l'algèbre p-KNN de Treeminer pour réduire le coût matériel des opérations
Jour 3 : Session 2 : Outils pour l'eDiscovery et la médecine légale
- eDiscovery sur Big Data vs données héritées – une comparaison des coûts et des performances
- Code prédictif et révision assistée par technologie (TAR)
- Démonstration en direct d'un produit TAR (vMiner) pour comprendre comment le TAR fonctionne pour une découverte plus rapide
- Indexation plus rapide via HDFS – vélocité des données
- Traitement du langage naturel (NLP) ou Traitement automatique des langues – diverses techniques et produits open source
- eDiscovery dans des langues étrangères – technologies pour le traitement des langues étrangères
Jour 3 : Session 3 : Big Data BI pour la cybersécurité – Comprendre les vues globales à 360 degrés de la collecte rapide de données à l'identification des menaces
- Compréhension des bases de l'analytique de sécurité – surface d'attaque, mauvaise configuration de la sécurité, défenses d'hôte
- Infrastructure réseau / grand pipeline de données / ETL de réponse pour les analytics en temps réel
- Prescriptif vs prédictif – basé sur des règles fixes vs découverte automatique des règles de menace à partir des métadonnées
Jour 3 : Session 4 : Big Data au USDA : Applications dans l'agriculture
- Introduction à l'IoT (Internet des Objets) pour l'agriculture - Big Data basé sur les capteurs et contrôle
- Introduction à l'imagerie satellitaire et ses applications dans l'agriculture
- Intégration des données de capteurs et d'images pour la fertilité des sols, les recommandations de culture et les prévisions
- Assurance agricole et Big Data
- Prévision des pertes de cultures
Jour 4 : Session 1 : Prévention de la fraude BI à partir du Big Data dans le gouvernement - Analytics de fraude :
- Classification de base des analytics de fraude - basé sur des règles vs analytics prédictifs
- Apprentissage supervisé vs non supervisé pour la détection des motifs de fraude
- Fraude des fournisseurs/surfacturation des projets
- Fraude Medicare et Medicaid - techniques de détection de fraude pour le traitement des réclamations
- Fraudes de remboursement de voyage
- Fraudes de remboursement de l'IRS
- Des études de cas et des démonstrations en direct seront fournies chaque fois que les données seront disponibles.
Jour 4 : Session 2 : Analytics des médias sociaux - Rassemblement et analyse de renseignements
- API ETL Big Data pour extraire les données des médias sociaux
- Texte, image, métadonnées et vidéo
- Analyse des sentiments à partir du flux des médias sociaux
- Filtrage contextuel et non contextuel du flux des médias sociaux
- Tableau de bord des médias sociaux pour intégrer divers médias sociaux
- Profilage automatisé des profils des médias sociaux
- Chaque analyse sera démontrée en direct via l'outil Treeminer.
Jour 4 : Session 3 : Analytics Big Data dans le traitement d'images et les flux vidéo
- Techniques de stockage d'images dans le Big Data - solutions de stockage pour les données dépassant le pétaoctet
- LTFS et LTO
- GPFS-LTFS (solution de stockage en couches pour les grandes données d'images)
- Fondements de l'analytique d'images
- Reconnaissance d'objets
- Segmentation d'images
- Suivi de mouvement
- Reconstruction d'images 3D
Jour 4 : Session 4 : Applications du Big Data au NIH :
- Domains émergents de la bio-informatique
- Métagenomique et problèmes de minage de Big Data
- Analytics prédictifs Big Data pour la pharmacogénomique, la métabolomique et la protéomique
- Big Data dans le processus de génomique en aval
- Application des analytics prédictifs Big Data dans la santé publique
Tableau de bord Big Data pour un accès rapide aux données diverses et l'affichage :
- Intégration de la plate-forme d'application existante avec le tableau de bord Big Data
- Gestion du Big Data
- Étude de cas du tableau de bord Big Data : Tableau et Pentaho
- Utiliser une application Big Data pour propulser les services basés sur la localisation dans le gouvernement
- Système de suivi et gestion
Jour 5 : Session 1 : Comment justifier la mise en œuvre du Business Intelligence Big Data au sein d'une organisation :
- Définir le ROI pour la mise en œuvre du Big Data
- Études de cas pour l'économie de temps des analystes pour la collecte et la préparation des données – augmentation du gain de productivité
- Études de cas de gain de revenus grâce à l'économie du coût des bases de données sous licence
- Gain de revenus des services basés sur la localisation
- Économies réalisées grâce à la prévention de la fraude
- Une approche de feuille de calcul intégrée pour calculer les dépenses approx. vs le gain d'économies/revenus de la mise en œuvre du Big Data.
Jour 5 : Session 2 : Procédure étape par étape pour remplacer le système de données hérité par un système Big Data :
- Compréhension d'une feuille de route pratique de migration Big Data
- Quelles informations importantes sont nécessaires avant d'architecturer une mise en œuvre Big Data ?
- Quelles sont les différentes façons de calculer le volume, la vélocité, la variété et la véracité des données ?
- Comment estimer la croissance des données ?
- Études de cas
Jour 5 : Session 4 : Revue des fournisseurs Big Data et examen de leurs produits. Session de questions-réponses :
- Accenture
- APTEAN (anciennement CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anciennement 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (filiale de EMC)
Pré requis
- Connaissance de base du fonctionnement des entreprises et des systèmes de données au gouvernement dans leur domaine
- Compréhension de base de SQL/Oracle ou des bases de données relationnelles
- Compréhension de base des statistiques (au niveau des feuilles de calcul)
35 Heures
Nos clients témoignent (1)
La capacité du formateur à aligner le cours sur les exigences de l'organisation, et non simplement à le dispenser pour le principe de sa livraison.
Masilonyane - Revenue Services Lesotho
Formation - Big Data Business Intelligence for Govt. Agencies
Traduction automatique