Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction :
- Apache Spark dans l'écosystème Hadoop
- Introduction rapide à Python et Scala
Les bases (théorie) :
- Architecture
- RDD
- Transformations et actions
- Stades, tâches et dépendances
Découverte des bases en utilisant l'environnement Databricks (atelier pratique) :
- Exercices avec l'API RDD
- Fonctions d'action et de transformation de base
- PairRDD
- Jointure (Join)
- Stratégies de mise en cache
- Exercices avec l'API DataFrame
- Spark SQL
- DataFrame : select, filter, group, sort
- UDF (User Defined Function, fonction définie par l'utilisateur)
- Exploration de l'API Dataset
- Streaming
Déploiement en utilisant l'environnement AWS (atelier pratique) :
- Les bases d'AWS Glue
- Comprendre les différences entre AWS EMR et AWS Glue
- Exemples de jobs sur les deux environnements
- Avantages et inconvénients
Suppléments :
- Introduction à l'orchestration avec Apache Airflow
Pré requis
Compétences en programmation (de préférence en Python et Scala)
Connaissances de base en SQL
21 Heures
Nos clients témoignent (3)
Avoir des sessions pratiques / des devoirs
Poornima Chenthamarakshan - Intelligent Medical Objects
Formation - Apache Spark in the Cloud
Traduction automatique
1. Bon équilibre entre les concepts de haut niveau et les détails techniques. 2. Andras est très compétent dans son enseignement. 3. Exercice
Steven Wu - Intelligent Medical Objects
Formation - Apache Spark in the Cloud
Traduction automatique
Découvrez le streaming Spark, Databricks et AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Formation - Apache Spark in the Cloud
Traduction automatique