Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Plan du cours
Module 1. Introduction à Hadoop
- Le Hadoop système de fichiers distribués (HDFS)
- Le chemin de lecture et le chemin d'écriture
- Gestion des métadonnées du système de fichiers
- Le Namenode et le Datanode
- La haute disponibilité du Namenode
- Fédération Namenode
- Les outils en ligne de commande
- Comprendre le support REST
Module 2. Introduction à MapReduce
- Analyser les données avec Hadoop
- Modèle Map et Reduce
- Java MapReduce
- Mise à l'échelle
- Flux de données
- Développement de fonctions combinatoires
- Exécution d'une tâche MapReduce distribuée
Module 3. Planification d'un cluster Hadoop
- Choisir une distribution et une version de Hadoop
- Versions et fonctionnalités
- Sélection du matériel
- Sélection du matériel maître et travailleur
- Dimensionnement de la grappe
- Sélection et préparation du système d'exploitation
- Configuration du déploiement
- Configuration des utilisateurs, des groupes et des privilèges
- Configuration des disques
- Conception du réseau
Module 4. Installation et configuration
- Installation Hadoop
- Configuration : Vue d'ensemble
- Les fichiers de configuration Hadoop XML
- Variables d'environnement et scripts Shell
- Configuration de la journalisation
- Gestion de HDFS
- Optimisation et réglage
- Formatage du Namenode
- Créer un répertoire /tmp
- Penser la haute disponibilité du Namenode
- Les options de clôture
- Configuration du basculement automatique
- Formater et Bootstrap les Namenodes
- Fédération des Namenodes
Module 5. Comprendre les Hadoop E/S
- Intégrité des données dans HDFS
- Comprendre les codecs
- Compression et fractionnement des entrées
- Utiliser la compression dans MapReduce
- Le mécanisme de sérialisation
- Structures de données basées sur des fichiers
- Le format SequenceFile
- Autres formats de fichiers et formats orientés colonnes
Module 6. Développer une application MapReduce
- L'API de configuration
- Configurer l'environnement de développement
- Gestion de la configuration
- GenericOptionsParser, Tool et ToolRunner
- Écrire un test unitaire avec MRUnit
- Le mappeur et le réducteur
- Exécution locale sur des données de test
- Test du pilote
- Exécution sur un cluster
- Emballage et lancement d'un travail
- L'interface Web MapReduce
- Mise au point d'un job
Module 7. Identité, authentification et autorisation
- Gestion de l'identité
- Kerberos et Hadoop
- Comprendre l'autorisation
Module 8. Ressources Management
- Qu'est-ce qu'une ressource Management ?
- Quotas HDFS
- Ordonnanceurs MapReduce
- Anatomie d'une exécution d'application YARN
- Demandes de ressources
- Durée de vie d'une application
- YARN comparé à MapReduce 1
- Ordonnancement dans YARN
- Options du planificateur
- Configuration de l'ordonnanceur de capacité
- Configuration de l'ordonnanceur équitable
- Ordonnancement à retardement
- Équité des ressources dominantes
Module 9. Types et formats de MapReduce
- Types de MapReduce
- Le job MapReduce par défaut
- Définir les formats d'entrée
- Gérer les divisions et les enregistrements d'entrée
- Entrées textuelles et entrées binaires
- Gestion des entrées multiples
- Database Entrée (et sortie)
- Formats de sortie
- Sortie texte et sortie binaire
- Gestion de plusieurs sorties
- La Database sortie
Module 10. Utiliser les fonctionnalités de MapReduce
- Utilisation des compteurs
- Lire les compteurs intégrés
- Compteurs définis par l'utilisateur Java
- Comprendre le tri
- Utiliser le cache distribué
Module 11. Maintenance et dépannage des clusters
- Gestion des Hadoop processus
- Démarrage et arrêt des processus avec les scripts Init
- Démarrer et arrêter les processus manuellement
- Tâches de maintenance HDFS
- Ajout d'un datanode
- Mise hors service d'un nœud de données
- Vérifier l'intégrité du système de fichiers avec fsck
- Équilibrer les données des blocs HDFS
- Gestion d'un disque défectueux
- Tâches de maintenance de MapReduce
- Tuer une tâche MapReduce
- Tuer une tâche MapReduce
- Gérer l'épuisement des ressources
Module 12. Surveillance
- Les métriques disponibles Hadoop
- Le rôle de SNMP
- Surveillance de l'état de santé
- Contrôles au niveau de l'hôte
- Contrôles HDFS
- Contrôles MapReduce
Module 13. Sauvegarde et récupération
- Sauvegarde des données
- Copie distribuée (distcp)
- Ingestion de données en parallèle
- Métadonnées Namenode
21 heures
Nos Clients témoignent (1)
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.