Plan du cours
Introduction
- Introduction au Cloud Computing et aux solutions Big Data
- Vue d'ensemble des fonctionnalités et de l'architecture d'Apache Hadoop
Mise en place Hadoop
- Planification d'un cluster Hadoop (sur site, dans le nuage, etc.)
- Sélection du système d'exploitation et de la distribution Hadoop
- Provisionnement des ressources (matériel, réseau, etc.)
- Téléchargement et installation du logiciel
- Dimensionner le cluster pour plus de flexibilité
Travailler avec HDFS
- Comprendre le Hadoop système de fichiers distribués (HDFS)
- Vue d'ensemble de la référence des commandes HDFS
- Accéder à HDFS
- Effectuer des opérations de base sur les fichiers dans HDFS
- Utiliser S3 en complément de HDFS
Vue d'ensemble de MapReduce
- Comprendre le flux de données dans le cadre MapReduce
- Cartographier, mélanger, trier et réduire
- Démonstration : Calcul des salaires les plus élevés
Travailler avec YARN
- Comprendre la gestion des ressources dans Hadoop
- Travailler avec ResourceManager, NodeManager, Application Master
- Planification des tâches sous YARN
- Ordonnancement pour un grand nombre de nœuds et de clusters
- Démonstration : Planification des tâches
Intégrer Hadoop à Spark
- Configurer le stockage pour Spark (HDFS, Amazon, S3, NoSQL, etc.)
- Comprendre les ensembles de données distribuées résilientes (RDD)
- Créer un RDD
- Implémentation des transformations RDD
- Démonstration : Implémentation d'un programme de recherche textuelle de titres de films
Gestion d'un Hadoop cluster
- Surveillance Hadoop
- Sécurisation d'un cluster Hadoop
- Ajouter et supprimer des nœuds
- Exécution d'un test de performance
- Optimisation des performances d'un cluster Hadoop
- Sauvegarde, récupération et planification de la continuité des activités
- Assurer la haute disponibilité (HA)
Mise à niveau et migration d'un Hadoop cluster
- Évaluer les besoins en charge de travail
- Mise à niveau Hadoop
- Passer d'un système sur site à un système en nuage et vice-versa
- Récupération des défaillances
Dépannage
Résumé et conclusion
Pré requis
- Expérience en administration système
- Expérience avec la ligne de commande Linux
- Une compréhension des concepts de big data
Public
- Administrateurs système
- DBAs
Nos clients témoignent (5)
La bonne humeur, l'accompagnement et les compétences du formateur.
Oumayma - Physiobotic
Formation - Scaling Data Pipelines with Spark NLP
Les exemples en direct
Ahmet Bolat - Accenture Industrial SS
Formation - Python, Spark, and Hadoop for Big Data
Traduction automatique
très interactif...
Richard Langford
Formation - SMACK Stack for Data Science
Traduction automatique
Une pratique suffisante, le formateur est compétent
Chris Tan
Formation - A Practical Introduction to Stream Processing
Traduction automatique
Découvrez le streaming Spark, Databricks et AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Formation - Apache Spark in the Cloud
Traduction automatique