Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Plan du cours
Chaque séance dure 2 heures
Jour 1 : Session -1 : Business Aperçu du pourquoi Big Data Business L'intelligence dans Govt.
- Études de cas du NIH et du DoE
- Big Data taux d'adaptation en Govt. Les agences et comment elles alignent leurs futures opérations autour de Big Data Predictive Analytics
- Domaine d'application à grande échelle dans le DoD, la NSA, l'IRS, l'USDA, etc.
- Interfaçage Big Data avec les données héritées
- Compréhension de base des technologies habilitantes dans l'analyse prédictive
- Data Integration & Visualisation du tableau de bord
- Gestion de la fraude
- Business Génération de règles/détection de fraude
- Détection et profilage des menaces
- Analyse coûts-avantages pour la mise en œuvre de Big Data
Jour-1 : Session-2 : Introduction de Big Data-1
- Principales caractéristiques de Big Data-volume, variété, vélocité et véracité. Architecture MPP pour le volume.
- Data Warehouses – schéma statique, ensemble de données évoluant lentement
- MPP Database comme Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Solutions basées – aucune condition sur la structure de l’ensemble de données.
- Modèle typique : HDFS, MapReduce (crunch), récupération depuis HDFS
- Lot adapté aux applications analytiques/non interactives
- Volume : données en streaming CEP
- Choix typiques – produits CEP (par exemple Infostreams, Apama, MarkLogic, etc.)
- Moins prêt pour la production – Storm/S4
- NoSQL Databases – (colonne et valeur-clé) : Idéal comme complément analytique à l'entrepôt de données/base de données
Jour-1 : Session -3 : Introduction à Big Data-2
NoSQL solutions
- Magasin KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Magasin KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Magasin KV (hiérarchique) - GT.m, Cache
- KV Store (commandé) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objet Database - ZopeDB, DB40, Shoal
- Magasin de documents - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Large magasin en colonnes - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variétés de données : introduction au problème Data Cleaning dans Big Data
- SGBDR – structure/schéma statique, ne favorise pas un environnement agile et exploratoire.
- NoSQL – semi-structuré, suffisamment structuré pour stocker des données sans schéma exact avant de stocker les données
- Problèmes de nettoyage des données
Jour-1 : Session-4 : Big Data Introduction-3 : Hadoop
- Quand sélectionner Hadoop ?
- STRUCTURÉ – Les entrepôts de données/bases de données d'entreprise peuvent stocker des données massives (à un coût) mais imposer une structure (pas bon pour l'exploration active)
- Données SEMI-STRUCTURÉES – difficiles à réaliser avec des solutions traditionnelles (DW/DB)
- Données d'entreposage = effort ÉNORME et statique même après la mise en œuvre
- Pour la variété et le volume de données, basés sur du matériel standard – HADOOP
- Produits matériels et matériels nécessaires pour créer un cluster Hadoop
Introduction à Map Réduire /HDFS
- MapReduce – répartissez l'informatique sur plusieurs serveurs
- HDFS – rendre les données disponibles localement pour le processus informatique (avec redondance)
- Données – peuvent être non structurées/sans schéma (contrairement au SGBDR)
- Responsabilité du développeur de donner un sens aux données
- Programming MapReduce = travailler avec Java (avantages/inconvénients), chargement manuel des données dans HDFS
Jour 2 : Session 1 : Big Data Construction d'un écosystème Big Data ETL : univers de Big Data Outils - lequel utiliser et quand ?
- Hadoop vs autres solutions NoSQL
- Pour un accès interactif et aléatoire aux données
- Hbase (base de données orientée colonnes) au-dessus de Hadoop
- Accès aléatoire aux données mais restrictions imposées (max 1 Po)
- Pas bon pour les analyses ad hoc, bon pour la journalisation, le comptage et les séries chronologiques
- Sqoop - Importer depuis des bases de données vers Hive ou HDFS (accès JDBC/ODBC)
- Flume – Diffusez des données (par exemple, des données de journal) dans HDFS
Jour 2 : Session 2 : Big Data Management Système
- Pièces mobiles, démarrage/échec des nœuds de calcul :ZooKeeper - Pour les services de configuration/coordination/naming
- Pipeline/workflow complexe : Oozie – gérer le workflow, les dépendances et la connexion en série
- Déployer, configurer, gestion de cluster, mise à niveau, etc. (administrateur système) :Ambari
- Dans le Cloud : Whirr
Jour-2 : Session-3 : Analyse prédictive dans Business Intelligence -1 : Techniques fondamentales et BI basée sur l'apprentissage automatique :
- Introduction à l'apprentissage automatique
- Apprentissage des techniques de classification
- Fichier de formation pour la préparation de la prédiction bayésienne
- Machine à vecteurs de support
- KNN p-Algèbre des arbres et exploitation minière verticale
- Réseau neuronal
- Big Data problème de grandes variables - Forêt aléatoire (RF)
- Big Data Problème d’automatisation – RF d’ensemble multimodèle
- Automatisation via Soft10-M
- Outil d'analyse de texte-Treeminer
- Agile apprentissage
- Apprentissage basé sur les agents
- Apprentissage distribué
- Introduction aux outils Open source pour l'analyse prédictive : R, Rapidminer, Mahut
Jour 2 : Session 4 Écosystème d'analyse prédictive-2 : Problèmes courants d'analyse prédictive dans Govt.
- Analyse d'informations
- Analyse de visualisation
- Analyse prédictive structurée
- Analyse prédictive non structurée
- Profilage des menaces, des fraudeurs et des fournisseurs
- Moteur de recommandation
- Détection de modèles
- Découverte de règles/scénarios – échec, fraude, optimisation
- Découverte des causes profondes
- Analyse des sentiments
- Analyse CRM
- Analyse de réseau
- Analyse de texte
- Examen assisté par la technologie
- Analyse de fraude
- Analyse en temps réel
Jour 3 : Session-1 : Temps réel et Scalable Analytic Over Hadoop
- Pourquoi les algorithmes analytiques courants échouent dans Hadoop/HDFS
- Apache Hama- pour l'informatique distribuée synchrone en masse
- Apache SPARK - pour le calcul en cluster pour des analyses en temps réel
- CMU Graphics Lab2 - Approche asynchrone basée sur des graphiques pour l'informatique distribuée
- Approche basée sur l'algèbre p KNN de Treeminer pour réduire les coûts d'exploitation du matériel
Jour 3 : Session 2 : Outils pour la découverte électronique et la criminalistique
- eDiscovery sur Big Data par rapport aux données héritées – une comparaison des coûts et des performances
- Codage prédictif et révision assistée par la technologie (TAR)
- Démo en direct d'un produit Tar (vMiner) pour comprendre comment TAR fonctionne pour une découverte plus rapide
- Indexation plus rapide via HDFS – vitesse des données
- Traitement du Langage Naturel ou PNL – diverses techniques et produits open source
- eDiscovery en langues étrangères – technologie pour le traitement des langues étrangères
Jour 3 : Session 3 : Big Data BI pour Cyber Security – Comprendre les vues complètes à 360 degrés de la collecte rapide de données jusqu'à l'identification des menaces
- Comprendre les bases de l'analyse de sécurité : surface d'attaque, mauvaise configuration de la sécurité, défenses de l'hôte
- Infrastructure réseau/Grand canal de données/Réponse ETL pour une analyse en temps réel
- Prescriptif vs prédictif – Basé sur des règles fixes ou découverte automatique des règles de menace à partir des métadonnées
Jour 3 : Session 4 : Big Data à l'USDA : Application en agriculture
- Introduction à l'IoT (Internet des objets) pour l'agriculture basée sur des capteurs Big Data et le contrôle
- Introduction à l'imagerie satellitaire et à son application en agriculture
- Intégration de données de capteurs et d'images pour la fertilité du sol, les recommandations de culture et les prévisions
- Assurance agricole et Big Data
- Prévision des pertes de récolte
Jour 4 : Session 1 : BI sur la prévention de la fraude de Big Data dans Govt-Fraud analytique :
- Classification de base de l'analyse de la fraude : analyse basée sur des règles ou analyse prédictive
- Apprentissage automatique supervisé ou non supervisé pour la détection des modèles de fraude
- Fraude des fournisseurs/facturation excessive des projets
- Fraude Medicare et Medicaid - techniques de détection de la fraude pour le traitement des réclamations
- Fraudes au remboursement des voyages
- Fraudes au remboursement IRS
- Des études de cas et des démonstrations en direct seront présentées partout où les données sont disponibles.
Jour 4 : Session-2 : Social Media Analytique – Collecte et analyse de renseignements
- Big Data API ETL pour extraire les données des réseaux sociaux
- Texte, image, métadonnées et vidéo
- Analyse des sentiments à partir du flux des médias sociaux
- Filtrage contextuel et non contextuel des flux de médias sociaux
- Social Media Tableau de bord pour intégrer divers médias sociaux
- Profilage automatisé du profil des réseaux sociaux
- Une démonstration en direct de chaque analyse sera proposée via Treeminer Tool.
Jour-4 : Session-3 : Big Data Analyse en traitement d'images et flux vidéo
- Techniques de stockage d'images dans Big Data - Solution de stockage pour les données dépassant les pétaoctets
- LTFS et LTO
- GPFS-LTFS (solution de stockage en couches pour les données d'images volumineuses)
- Fondamentaux de l'analyse d'images
- Reconnaissance d'objets
- Segmentation d'images
- Suivi de mouvement
- Reconstruction d'images 3D
Jour 4 : Session 4 : Big Data applications aux NIH :
- Domaines émergents de la Bio-informatique
- Problèmes de méta-génomique et Big Data d'exploitation minière
- Big Data Analyse prédictive pour la pharmacogénomique, la métabolomique et la protéomique
- Big Data dans le processus de génomique en aval
- Application de l'analyse prédictive Big data à la santé publique
Big Data Tableau de bord pour un accès rapide à diverses données et affichage :
- Intégration de la plateforme d'application existante avec Big Data Dashboard
- Big Data gestion
- Étude de cas de Big Data Tableau de bord : Tableau et Pentaho
- Utilisez l'application Big Data pour diffuser les services basés sur la localisation dans Govt.
- Système de suivi et gestion
Jour-5 : Session-1 : Comment justifier Big Data la mise en œuvre de la BI au sein d'une organisation :
- Définir le retour sur investissement pour la mise en œuvre de Big Data
- Études de cas permettant aux analystes de gagner du temps pour la collecte et la préparation des données – augmentation du gain de productivité
- Études de cas sur les gains de revenus résultant de la réduction du coût de la base de données sous licence
- Gain de revenus grâce aux services géolocalisés
- Économiser grâce à la prévention de la fraude
- Une approche intégrée de feuille de calcul pour calculer env. dépenses par rapport aux gains/économies de revenus résultant de la mise en œuvre de Big Data.
Jour 5 : Session 2 : Procédure étape par étape pour remplacer le système de données existant par le système Big Data :
- Comprendre la feuille de route pratique Big Data pour la migration
- Quelles sont les informations importantes nécessaires avant de concevoir une implémentation Big Data
- Quelles sont les différentes manières de calculer le volume, la vélocité, la variété et la véracité des données
- Comment estimer la croissance des données
- Études de cas
Jour 5 : Session 4 : Examen de Big Data fournisseurs et examen de leurs produits. Séance de questions/réponses :
- Accenture
- APTEAN (anciennement CDC Software)
- Cisco Systèmes
- Cloudera
- Dell
- CEM
- GoodData Corporation
- Guavus
- Systèmes de données Hitachi
- Hortons
- HP
- IBM
- Informatique
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anciennement 10Gen)
- MU Sigma
- Netapp
- Solutions Opéra
- Oracle
- Pentaho
- Plateforme
- Qliktech
- Quantum
- Espace rackable
- Analyse de la révolution
- Salesforce
- SAP
- SAS Institut
- Sisense
- Software AG/Terre cuite
- Automatisation Soft10
- Splunk
- Sqrl
- Supermicro
- Tableau Logiciel
- Teradata
- Voir grand
- Systèmes de marquage des marées
- Mineur d'arbres
- VMware (partie d'EMC)
Pré requis
- Connaissance de base des opérations commerciales et des systèmes de données du gouvernement dans leur domaine
- Compréhension de base de SQL/Oracle ou d'une base de données relationnelle .
- Compréhension de base de Statistics (au niveau du tableur)
35 heures
Nos Clients témoignent (4)
Use cases were awesome! and Ray involved each and every one of us in each use case.
Zara - Trench Ltd
Formation - Alteryx for Data Analysis
Les compétences orales et le côté humain du formateur (Augustin).
Jeremy Chicon - TE Connectivity
Formation - NB-IoT for Developers
Traduction automatique
Des explications claires avec de bons exemples pour que je puisse faire le lien avec mon propre travail.
Elaine Vermeulen - Sandoz BV
Formation - Alteryx for Developers
Traduction automatique
Bons exemples, bon rythme de la formation et couverture de la plupart des sujets.
David - McGraw Hill
Formation - Data Preparation with Alteryx
Traduction automatique