Plan du cours
-
Préambule à Scala
- Introduction rapide à Scala
- Laboratoires : Découverte de Scala
-
Bases de Spark
- Contexte et historique
- Spark et Hadoop
- Concepts et architecture de Spark
- Écosystème de Spark (core, spark sql, mlib, streaming)
- Laboratoires : Installation et exécution de Spark
-
Première approche de Spark
- Exécution de Spark en mode local
- Interface web de Spark
- Shell de Spark
- Analyse d'un jeu de données – partie 1
- Inspection des RDDs
- Laboratoires : Exploration du shell de Spark
-
RDDs
- Concepts des RDDs
- Partitions
- Opérations / transformations sur les RDDs
- RDDs clé-valeur
- MapReduce sur les RDDs
- Mise en cache et persistance
- Laboratoires : Création et inspection des RDDs ; Mise en cache des RDDs
-
Programmation avec l'API Spark
- Introduction à l'API Spark / RDD API
- Soumission du premier programme à Spark
- Débogage / journalisation
- Propriétés de configuration
- Laboratoires : Programmation avec l'API Spark, Soumission de tâches
-
Spark SQL
- Soutien SQL dans Spark
- Dataframes
- Définition de tables et importation de jeux de données
- Interrogation des dataframes avec SQL
- Formats de stockage : JSON / Parquet
- Laboratoires : Création et interrogation de dataframes ; Évaluation des formats de données
-
MLlib
- Introduction à MLlib
- Algorithmes de MLlib
- Laboratoires : Écriture d'applications MLib
-
GraphX
- Aperçu de la bibliothèque GraphX
- APIs de GraphX
- Laboratoires : Traitement des données graphiques avec Spark
-
Spark Streaming
- Aperçu du streaming
- Évaluation des plateformes de streaming
- Opérations de streaming
- Opérations sur fenêtres glissantes
- Laboratoires : Écriture d'applications Spark Streaming
-
Spark et Hadoop
- Introduction à Hadoop (HDFS / YARN)
- Architecture Hadoop + Spark
- Exécution de Spark sur Hadoop YARN
- Traitement des fichiers HDFS avec Spark
-
Prestations et réglages de Spark
- Variables diffusées
- Accumulateurs
- Gestion de la mémoire et mise en cache
-
Opérations Spark
- Déploiement de Spark en production
- Modèles de déploiement types
- Configurations
- Suivi et monitoring
- Dépannage
Pré requis
PRÉ-REQUIS
Connaissance de l'un des langages suivants : Java / Scala / Python (nos laboratoires en Scala et Python)
Compréhension de base de l'environnement de développement Linux (navigation en ligne de commande / édition de fichiers avec VI ou nano)
Nos clients témoignent (6)
Faire les mêmes exercices de différentes manières aide vraiment à comprendre ce que chaque composant (Hadoop/Spark, standalone/cluster) peut faire individuellement et ensemble. Cela m'a donné des idées sur la façon dont je devrais tester mon application sur ma machine locale lors du développement par rapport à son déploiement sur un cluster.
Thomas Carcaud - IT Frankfurt GmbH
Formation - Spark for Developers
Traduction automatique
Ajay était très sympathique, serviable et également bien informé sur le sujet qu'il abordait.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Formation - Spark for Developers
Traduction automatique
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Formation - Spark for Developers
Traduction automatique
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Formation - Spark for Developers
Traduction automatique
We know a lot more about the whole environment.
John Kidd
Formation - Spark for Developers
Traduction automatique
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Formation - Spark for Developers
Traduction automatique