Plan du cours

Section 1 : Introduction à Hadoop

  • Histoire et concepts de Hadoop
  • Écosystème
  • Distributions
  • Architecture de haut niveau
  • Méthodes et mythes autour de Hadoop
  • Défis liés à Hadoop
  • Materiel / logiciel
  • lab : première approche de Hadoop

Section 2 : HDFS

  • Conception et architecture
  • Concepts (échelle horizontale, réplication, localité des données, conscience du rack)
  • Dæmons : Namenode, Secondary namenode, Data node
  • Communications / battements de cœur
  • Intégrité des données
  • Chemin de lecture/écriture
  • Namenode High Availability (HA), Federation
  • labs : Interactions avec HDFS

Section 3 : Map Reduce

  • concepts et architecture
  • démons (MRV1) : jobtracker / tasktracker
  • phases : driver, mapper, shuffle/sort, reducer
  • Map Reduce Version 1 et Version 2 (YARN)
  • Fonctionnement interne de Map Reduce
  • Introduction au Java programme Map Reduce
  • Travaux pratiques : Exécution d'un exemple de programme MapReduce

Section 4 : Pig

  • Pig vs java map reduce
  • flux de travail de pig
  • Pig langage latin
  • ETL avec Pig
  • Transformations et jointures
  • Fonctions définies par l'utilisateur (UDF)
  • labs : écrire des scripts Pig pour analyser des données

Section 5 : Hive

  • architecture et conception
  • types de données
  • Support SQL dans Hive
  • Création de Hive tables et requêtes
  • partitions
  • jointures
  • traitement de texte
  • labs : divers labs sur le traitement des données avec Hive

Section 6 : HBase

  • Concepts et architecture
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Données de série temporelle sur HBase
  • Conception du schéma
  • labs : Interactions avec HBase en utilisant le shell ; programmation dans l'API Java HBase ; exercice de conception de schéma

Pré requis

  • à l'aise avec Java langage de programmation (la plupart des exercices de programmation se font en Java)
  • à l'aise dans l'environnement Linux (être capable de naviguer sur la ligne de commande Linux, d'éditer des fichiers en utilisant vi / nano)

Environnement de laboratoire

Zéro installation : Il n'est pas nécessaire d'installer le logiciel Hadoop sur les machines des étudiants ! Un cluster fonctionnel Hadoop sera fourni aux étudiants.

Les étudiants auront besoin des éléments suivants

  • un client SSH (Linux et Mac disposent déjà de clients ssh, pour Windows il est recommandé d'utiliser Putty)
  • un navigateur pour accéder au cluster, Firefox est recommandé
 28 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (5)

Cours à venir

Catégories Similaires