Plan du cours
- Introduction
- Hadoop histoire, concepts
- Ecosystème
- Distributions
- Architecture de haut niveau
- Hadoop mythes
- Hadoop défis (matériel / logiciel)
- Labs : discutez de vos Big Data projets et problèmes
- Planification et installation
- Sélection des logiciels, Hadoop distributions
- Dimensionnement du cluster, planification de la croissance
- Sélection du matériel et du réseau
- Topologie du rack
- L'installation
- Multi-tenance
- Structure des répertoires, journaux
- Benchmarking
- Labs : installation d'un cluster, tests de performance
- Opérations HDFS
- Concepts (mise à l'échelle horizontale, réplication, localité des données, prise en compte du rack)
- Nœuds et démons (NameNode, NameNode secondaire, HA Standby NameNode, DataNode)
- Surveillance de l'état de santé
- Administration en ligne de commande et par navigateur
- Ajout de stockage, remplacement des disques défectueux
- Travaux pratiques : se familiariser avec les lignes de commande HDFS
- Ingestion de données
- Flume pour l'ingestion de logs et d'autres données dans HDFS
- Sqoop pour l'importation des bases de données SQL vers HDFS, ainsi que l'exportation vers SQL.
- Hadoop entreposage de données avec Hive
- Copie de données entre clusters (distcp)
- Utilisation de S3 en complément de HDFS
- Meilleures pratiques et architectures d'ingestion de données
- Labos : mise en place et utilisation de Flume, idem pour Sqoop
- Opérations et administration de MapReduce
- Le calcul parallèle avant MapReduce : comparaison entre l'administration HPC et l'administration Hadoop
- Charges des clusters MapReduce
- Nœuds et Daemons (JobTracker, TaskTracker)
- Visite de l'interface MapReduce
- Configuration de Mapreduce
- Configuration des tâches
- Optimisation de MapReduce
- MR à l'épreuve des erreurs : ce qu'il faut dire à vos programmeurs
- Labs : exemples d'exécution de MapReduce
- YARN : nouvelle architecture et nouvelles capacités
- Objectifs de conception de YARN et architecture de mise en œuvre
- Nouveaux acteurs : ResourceManager, NodeManager, Application Master
- Installation de YARN
- Planification des tâches sous YARN
- Travaux pratiques : étudier l'ordonnancement des tâches
- Sujets avancés
- Surveillance du matériel
- Surveillance des clusters
- Ajout et suppression de serveurs, mise à niveau Hadoop.
- Sauvegarde, récupération et planification de la continuité des activités
- Flux de travaux Oozie
- Hadoop Haute disponibilité (HA)
- Hadoop Fédération
- Sécurisation de votre cluster avec Kerberos
- Labos : mise en place de la surveillance
- Pistes optionnelles
- Cloudera Manager pour l'administration du cluster, la surveillance et les tâches de routine ; installation, utilisation. Dans ce cours, tous les exercices et laboratoires sont réalisés dans l'environnement de distribution Cloudera (CDH5).
- Ambari pour l'administration des clusters, la surveillance et les tâches de routine ; installation, utilisation. Dans ce cours, tous les exercices et les laboratoires sont réalisés avec le gestionnaire de cluster Ambari et Hortonworks Data Platform (HDP 2.0).
Pré requis
- A l'aise avec l'administration de base Linux du système .
- Compétences de base en écriture de scripts
La connaissance de Hadoop et de l'informatique distribuée n'est pas requise, mais elle sera présentée et expliquée dans le cours.
Lab environment
Zéro installation : Il n'est pas nécessaire d'installer le logiciel Hadoop sur les machines des étudiants ! Un cluster Hadoop fonctionnel sera fourni aux étudiants.
Les étudiants auront besoin des éléments suivants
- un client SSH (Linux et Mac ont déjà des clients SSH, pour Windows Putty est recommandé)
- un navigateur pour accéder au cluster. Nous recommandons le navigateur Firefox avec l'extension FoxyProxy installée
Nos Clients témoignent (6)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Formation - Impala for Business Intelligence
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Formation - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Formation - Administrator Training for Apache Hadoop
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Formation - Big Data Analytics in Health
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.
vyzVoice
Formation - Hadoop for Developers and Administrators
practical things of doing, also theory was served good by Ajay