Plan du cours

Section 1 : Data Management dans HDFS

  • Divers Formats de Données (JSON / Avro / Parquet)
  • Schémas de Compression
  • Masquage des Données
  • Ateliers : Analyse des différents formats de données ; activation de la compression

Section 2 : Pig Avancé

  • Fonctions Définies par l'Utilisateur
  • Introduction aux Bibliothèques Pig (ElephantBird / Data-Fu)
  • Chargement de Données Structurées Complexes avec Pig
  • Tuning de Pig
  • Ateliers : scriptage avancé en Pig, analyse de types de données complexes

Section 3 : Hive Avancé

  • Fonctions Définies par l'Utilisateur
  • Tables Comprimées
  • Tuning des Performances de Hive
  • Ateliers : création de tables compressées, évaluation des formats et configurations de table

Section 4 : HBase Avancé

  • Modélisation avancée du schéma
  • Compression
  • Ingestion massive des données
  • Comparaison de table large / haute-table
  • HBase et Pig
  • HBase et Hive
  • Tuning des performances d'HBase
  • Ateliers : tuning HBase ; accès aux données HBase depuis Pig & Hive ; Utilisation de Phoenix pour la modélisation des données

Pré requis

  • à l'aise avec le langage de programmation Java (la plupart des exercices de programmation sont en java)
  • à l'aise dans l'environnement Linux (être capable de naviguer dans l'invite de commandes Linux, d'éditer des fichiers avec vi / nano)
  • une connaissance opérationnelle de Hadoop.

Environnement de laboratoire

Aucune installation nécessaire : Il n'est pas nécessaire d'installer le logiciel Hadoop sur les machines des étudiants ! Un cluster Hadoop opérationnel sera fourni aux étudiants.

Les étudiants auront besoin de :

 21 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (5)

Cours à venir

Catégories Similaires