Plan du cours

1 : HDFS (17 %)

  • Décrire la fonction des démons HDFS
  • Décrire le fonctionnement normal d'un cluster Apache Hadoop, tant en stockage de données qu'en traitement de données.
  • Identifiez les fonctionnalités actuelles des systèmes informatiques qui motivent un système comme Apache Hadoop.
  • Classer les principaux objectifs de HDFS Design
  • Étant donné un scénario, identifiez le cas d'utilisation approprié pour la fédération HDFS
  • Identifier les composants et le démon d'un cluster HDFS HA-Quorum
  • Analyser le rôle de la sécurité HDFS (Kerberos)
  • Déterminer le meilleur choix de sérialisation des données pour un scénario donné
  • Décrire les chemins de lecture et d'écriture des fichiers
  • Identifiez les commandes pour manipuler les fichiers dans le Hadoop File System Shell

2 : YARN et MapReduce version 2 (MRv2) (17 %)

  • Comprendre comment la mise à niveau d'un cluster de Hadoop 1 vers Hadoop 2 affecte les paramètres du cluster
  • Comprendre comment déployer MapReduce v2 (MRv2 / YARN), y compris tous les démons YARN
  • Comprendre la stratégie de conception de base pour MapReduce v2 (MRv2)
  • Déterminer comment YARN gère les allocations de ressources
  • Identifiez le flux de travail du travail MapReduce exécuté sur YARN
  • Déterminez quels fichiers vous devez modifier et comment migrer un cluster de MapReduce version 1 (MRv1) vers MapReduce version 2 (MRv2) exécuté sur YARN.

3 : Hadoop Planification de cluster (16 %)

  • Principaux points à considérer dans le choix du matériel et des systèmes d'exploitation pour héberger un cluster Apache Hadoop.
  • Analyser les choix de sélection d'un système d'exploitation
  • Comprendre le réglage du noyau et l'échange de disques
  • Étant donné un scénario et un modèle de charge de travail, identifier une configuration matérielle appropriée au scénario
  • Dans un scénario donné, déterminez les composants de l'écosystème que votre cluster doit exécuter pour respecter le SLA.
  • Dimensionnement du cluster : en fonction d'un scénario et d'une fréquence d'exécution, identifiez les spécificités de la charge de travail, notamment le processeur, la mémoire, le stockage et les E/S de disque.
  • Dimensionnement et configuration des disques, y compris JBOD par rapport aux RAID, SAN, virtualisation et exigences de dimensionnement des disques dans un cluster
  • Topologies de réseau : comprendre l'utilisation du réseau dans Hadoop (pour HDFS et MapReduce) et proposer ou identifier les composants clés de conception de réseau pour un scénario donné

4 : Hadoop Installation et administration du cluster (25 %)

  • Étant donné un scénario, identifiez comment le cluster gérera les pannes de disque et de machine
  • Analyser une configuration de journalisation et le format du fichier de configuration de journalisation
  • Comprendre les bases des métriques Hadoop et de la surveillance de l'état du cluster
  • Identifier la fonction et le but des outils disponibles pour la surveillance des clusters
  • Être capable d'installer tous les composants de l'écosystème dans CDH 5, y compris (mais sans s'y limiter) : Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive et Pig
  • Identifier la fonction et l'objectif des outils disponibles pour gérer le système de fichiers Apache Hadoop

5 : Ressource Management (10 %)

  • Comprendre les objectifs de conception globaux de chacun des Hadoop planificateurs
  • Étant donné un scénario, déterminez comment le planificateur FIFO alloue les ressources du cluster
  • Dans un scénario donné, déterminez comment Fair Scheduler alloue les ressources du cluster sous YARN.
  • Dans un scénario donné, déterminez comment Capacité Scheduler alloue les ressources du cluster

6 : Surveillance et journalisation (15 %)

  • Comprendre les fonctions et les caractéristiques des capacités de collecte de métriques de Hadoop
  • Analyser les interfaces utilisateur Web NameNode et JobTracker
  • Comprendre comment surveiller les démons du cluster
  • Identifiez et surveillez l'utilisation du processeur sur les nœuds maîtres
  • Décrire comment surveiller le swap et l'allocation de mémoire sur tous les nœuds
  • Identifier comment afficher et gérer les fichiers journaux de Hadoop
  • Interpréter un fichier journal

Pré requis

  • Compétences de base en administration Linux
  • Compétences de base en programmation
 35 heures

Nombre de participants



Prix par participant

Nos Clients témoignent (3)

Cours Similaires

Deep Learning for Finance (with R)

28 heures

Deep Learning for Banking (with R)

28 heures

Catégories Similaires