Prenez contact avec nous

Plan du cours

PySpark & apprentissage automatique 

Module 1 : Fondamentaux du Big Data & de Spark

  • Vue d'ensemble de l'écosystème Big Data et du rôle de Spark dans les plateformes de données modernes.
  • Compréhension de l'architecture de Spark : conducteur (driver), exécuteurs (executors), gestionnaire de cluster, évaluation paresseuse (lazy evaluation), DAG et planification de l'exécution.
  • Différences entre les API RDD et DataFrame et moments où utiliser chaque approche.
  • Création et configuration de SparkSession et compréhension des fondamentaux de la configuration des applications.

Module 2 : DataFrames PySpark

  • Lecture et écriture de données à partir de sources et formats enterprise (CSV, JSON, Parquet, Delta).
  • Travail avec les DataFrames PySpark : transformations, actions, expressions de colonnes, filtrage, jointures et agrégations.
  • Mise en œuvre d'opérations avancées telles que les fonctions de fenêtrage, la manipulation des horodatages et le travail avec des données imbriquées.
  • Application de contrôles de qualité des données et écriture de code PySpark réutilisable et maintenable.

Module 3 : Traitement efficace de grands ensembles de données

  • Compréhension des fondamentaux de la performance : stratégies de partitionnement, comportement du shuffle, mise en cache et persistance.
  • Utilisation des techniques d'optimisation, y compris les jointures par broadcast et l'analyse du plan d'exécution.
  • Traitement efficace de grands ensembles de données et meilleures pratiques pour des workflows de données évolutifs.
  • Compréhension de l'évolution du schéma et des formats de stockage modernes utilisés dans les environnements enterprise.

Module 4 : Ingénierie des caractéristiques à grande échelle

  • Réalisation d'ingénierie des caractéristiques avec Spark MLlib : gestion des valeurs manquantes, encodage des variables catégorielles et mise à l'échelle des caractéristiques.
  • Conception d'étapes de prétraitement réutilisables et préparation des ensembles de données pour les pipelines d'apprentissage automatique.
  • Introduction à la sélection des caractéristiques et à la gestion des ensembles de données déséquilibrés.

Module 5 : Apprentissage automatique avec Spark MLlib

  • Compréhension de l'architecture de MLlib et du pattern Estimateur/Transformateur.
  • Entraînement de modèles de régression et de classification à grande échelle (Régression linéaire, Régression logistique, Arbres de décision, Forêts aléatoires).
  • Comparaison des modèles et interprétation des résultats dans des workflows d'apprentissage automatique distribués.

Module 6 : Pipelines ML de bout en bout

  • Construction de pipelines d'apprentissage automatique complets combinant prétraitement, ingénierie des caractéristiques et modélisation.
  • Application des stratégies de séparation entraînement/validation/test.
  • Réalisation de validation croisée et de réglage des hyperparamètres utilisant la recherche par grille et la recherche aléatoire.
  • Structuration d'expériences d'apprentissage automatique reproductibles.

Module 7 : Évaluation des modèles & Prise de décision ML pratique

  • Application des métriques d'évaluation appropriées pour les problèmes de régression et de classification.
  • Identification du surajustement (overfitting) et du sous-ajustement (underfitting) et prise de décisions pratiques de sélection de modèle.
  • Interprétation de l'importance des caractéristiques et compréhension du comportement des modèles.

Module 8 : Pratiques de production & Enterprise

  • Persistance et chargement des modèles dans Spark.
  • Mise en œuvre de workflows d'inférence par lots sur de grands ensembles de données.
  • Compréhension du cycle de vie de l'apprentissage automatique dans les environnements enterprise.
  • Introduction au versionnement, au suivi des expériences et aux stratégies de test de base.

 

Résultat pratique

  • Capacité à travailler de manière autonome avec PySpark.
  • Capacité à traiter efficacement de grands ensembles de données.
  • Capacité à effectuer de l'ingénierie des caractéristiques à grande échelle.
  • Capacité à construire des pipelines d'apprentissage automatique évolutifs.

Pré requis

Les participants devraient posséder les connaissances préalables suivantes :

Connaissances de base en programmation Python, incluant l'utilisation de fonctions, de structures de données et de bibliothèques.
Compréhension fondamentale des concepts d'analyse de données, tels que les ensembles de données, les transformations et les agrégations.
Connaissances de base en SQL et en concepts liés aux données relationnelles.
Compréhension introductive des concepts de l'apprentissage automatique, tels que les jeux de données d'entraînement, les caractéristiques (features) et les métriques d'évaluation.
Une familiarité avec les environnements en ligne de commande et les pratiques de base du développement logiciel est recommandée.

De l'expérience avec Pandas, NumPy ou des bibliothèques similaires de traitement de données est utile mais non obligatoire.

 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (1)

Cours à venir

Catégories Similaires