Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Semaine 1 — Introduction à l'Ingénierie des Données
- Fondements de l'ingénierie des données et piles de données modernes
- Modèles d'ingestion de données et sources
- Concepts de traitement par lots vs en temps réel et cas d'utilisation
- Laboratoire pratique : ingestion de données d'échantillon dans le stockage cloud
Semaine 2 — Badge Fondation Databricks Lakehouse
- Fondements de la plateforme Databricks et navigation dans l'espace de travail
- Concepts Delta Lake : ACID, voyage dans le temps et évolution du schéma
- Sécurité de l'espace de travail, contrôles d'accès et bases de Unity Catalog
- Laboratoire pratique : création et gestion de tables Delta
Semaine 3 — SQL Avancé sur Databricks
- Constructions SQL avancées et fonctions de fenêtre à grande échelle
- Optimisation des requêtes, plans d'exécution et modèles conscients du coût
- Vues matérialisées, mise en cache et réglage des performances
- Laboratoire pratique : optimisation de requêtes analytiques sur de grands ensembles de données
Semaine 4 — Préparation pour le Databricks Certified Developer for Apache Spark
- Architecture Spark, RDDs, DataFrames et Datasets approfondis
- Transformations et actions clés de Spark ; considérations sur les performances
- Bases du streaming Spark et modèles de streaming structuré
- Exercices de pratique d'examens et problèmes de test pratiques
Semaine 5 — Introduction à la Modélisation des Données
- Concepts : modélisation dimensionnelle, conception étoile/entité-association et normalisation
- Modélisation Lakehouse vs approches traditionnelles de data warehouse
- Modèles de conception pour des ensembles de données prêts à l'analyse
- Laboratoire pratique : construction de tables et vues prêtes à la consommation
Semaine 6 — Introduction aux Outils d'Importation et à l'Automatisation de l'Ingestion de Données
- Connecteurs et outils d'ingestion pour Databricks (AWS Glue, Data Factory, Kafka)
- Modèles d'ingestion en temps réel et designs de micro-lots
- Vérification des données, contrôles de qualité et enforcement de schéma
- Laboratoire pratique : construction de pipelines d'ingestion résilients
Semaine 7 — Introduction au Git Flow et CI/CD pour l'Ingénierie des Données
- Stratégies de branches Git Flow et organisation du dépôt
- Pipelines CI/CD pour les notebooks, tâches et infrastructure comme code
- Tests, mise en forme et automatisation du déploiement pour le code de données
- Laboratoire pratique : implémentation d'un workflow basé sur Git et déploiement automatique de tâches
Semaine 8 — Préparation au Databricks Certified Data Engineer Associate & Modèles d'Ingénierie des Données
- Revue des sujets de certification et exercices pratiques
- Modèles architecturaux : bronze/argent/or, CDC, dimensions évoluant lentement
- Modèles opérationnels : surveillance, alertes et traçabilité
- Laboratoire pratique : pipeline de bout en bout appliquant des modèles d'ingénierie
Semaine 9 — Introduction à Airflow et Astronomer ; Scripting
- Concepts Airflow : DAGs, tâches, opérateurs et planification
- Aperçu de la plateforme Astronomer et meilleures pratiques d'orchestration
- Scripting pour l'automatisation : modèles de scripting Python pour les tâches de données
- Laboratoire pratique : orchestration de tâches Databricks avec des DAGs Airflow
Semaine 10 — Visualisation des Données, Tableau et Projet Final Personnalisé
- Connexion de Tableau à Databricks et meilleures pratiques pour les couches BI
- Principes de conception de tableaux de bord et visualisations performantes
- Projet final : portée, mise en œuvre et présentation d'un projet final personnalisé
- Présentations finales, évaluation par les pairs et retours de l'instructeur
Résumé et Étapes Suivantes
Pré requis
- Une compréhension des concepts de base de SQL et des données
- Une expérience en programmation avec Python ou Scala
- Une familiarité avec les services cloud et les environnements virtuels
PUBLIC CIBLÉ
- Data engineers débutants et confirmés
- Développeurs ETL/BI et ingénieurs en analyse de données
- Équipes de plateformes de données et DevOps supportant les pipelines
350 Heures