Prenez contact avec nous

Plan du cours

Introduction :

  • Apache Spark dans l'écosystème Hadoop
  • Introduction rapide à Python et Scala

Les bases (théorie) :

  • Architecture
  • RDD
  • Transformations et actions
  • Stades, tâches et dépendances

Découverte des bases en utilisant l'environnement Databricks (atelier pratique) :

  • Exercices avec l'API RDD
  • Fonctions d'action et de transformation de base
  • PairRDD
  • Jointure (Join)
  • Stratégies de mise en cache
  • Exercices avec l'API DataFrame
  • Spark SQL
  • DataFrame : select, filter, group, sort
  • UDF (User Defined Function, fonction définie par l'utilisateur)
  • Exploration de l'API Dataset
  • Streaming

Déploiement en utilisant l'environnement AWS (atelier pratique) :

  • Les bases d'AWS Glue
  • Comprendre les différences entre AWS EMR et AWS Glue
  • Exemples de jobs sur les deux environnements
  • Avantages et inconvénients

Suppléments :

  • Introduction à l'orchestration avec Apache Airflow

Pré requis

Compétences en programmation (de préférence en Python et Scala)

Connaissances de base en SQL

 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (3)

Cours à venir

Catégories Similaires