Plan du cours

Semaine 1 — Introduction à l'Ingénierie des Données

  • Fondements de l'ingénierie des données et piles de données modernes
  • Modèles d'ingestion de données et sources
  • Concepts de traitement par lots vs en temps réel et cas d'utilisation
  • Laboratoire pratique : ingestion de données d'échantillon dans le stockage cloud

Semaine 2 — Badge Fondation Databricks Lakehouse

  • Fondements de la plateforme Databricks et navigation dans l'espace de travail
  • Concepts Delta Lake : ACID, voyage dans le temps et évolution du schéma
  • Sécurité de l'espace de travail, contrôles d'accès et bases de Unity Catalog
  • Laboratoire pratique : création et gestion de tables Delta

Semaine 3 — SQL Avancé sur Databricks

  • Constructions SQL avancées et fonctions de fenêtre à grande échelle
  • Optimisation des requêtes, plans d'exécution et modèles conscients du coût
  • Vues matérialisées, mise en cache et réglage des performances
  • Laboratoire pratique : optimisation de requêtes analytiques sur de grands ensembles de données

Semaine 4 — Préparation pour le Databricks Certified Developer for Apache Spark

  • Architecture Spark, RDDs, DataFrames et Datasets approfondis
  • Transformations et actions clés de Spark ; considérations sur les performances
  • Bases du streaming Spark et modèles de streaming structuré
  • Exercices de pratique d'examens et problèmes de test pratiques

Semaine 5 — Introduction à la Modélisation des Données

  • Concepts : modélisation dimensionnelle, conception étoile/entité-association et normalisation
  • Modélisation Lakehouse vs approches traditionnelles de data warehouse
  • Modèles de conception pour des ensembles de données prêts à l'analyse
  • Laboratoire pratique : construction de tables et vues prêtes à la consommation

Semaine 6 — Introduction aux Outils d'Importation et à l'Automatisation de l'Ingestion de Données

  • Connecteurs et outils d'ingestion pour Databricks (AWS Glue, Data Factory, Kafka)
  • Modèles d'ingestion en temps réel et designs de micro-lots
  • Vérification des données, contrôles de qualité et enforcement de schéma
  • Laboratoire pratique : construction de pipelines d'ingestion résilients

Semaine 7 — Introduction au Git Flow et CI/CD pour l'Ingénierie des Données

  • Stratégies de branches Git Flow et organisation du dépôt
  • Pipelines CI/CD pour les notebooks, tâches et infrastructure comme code
  • Tests, mise en forme et automatisation du déploiement pour le code de données
  • Laboratoire pratique : implémentation d'un workflow basé sur Git et déploiement automatique de tâches

Semaine 8 — Préparation au Databricks Certified Data Engineer Associate & Modèles d'Ingénierie des Données

  • Revue des sujets de certification et exercices pratiques
  • Modèles architecturaux : bronze/argent/or, CDC, dimensions évoluant lentement
  • Modèles opérationnels : surveillance, alertes et traçabilité
  • Laboratoire pratique : pipeline de bout en bout appliquant des modèles d'ingénierie

Semaine 9 — Introduction à Airflow et Astronomer ; Scripting

  • Concepts Airflow : DAGs, tâches, opérateurs et planification
  • Aperçu de la plateforme Astronomer et meilleures pratiques d'orchestration
  • Scripting pour l'automatisation : modèles de scripting Python pour les tâches de données
  • Laboratoire pratique : orchestration de tâches Databricks avec des DAGs Airflow

Semaine 10 — Visualisation des Données, Tableau et Projet Final Personnalisé

  • Connexion de Tableau à Databricks et meilleures pratiques pour les couches BI
  • Principes de conception de tableaux de bord et visualisations performantes
  • Projet final : portée, mise en œuvre et présentation d'un projet final personnalisé
  • Présentations finales, évaluation par les pairs et retours de l'instructeur

Résumé et Étapes Suivantes

Pré requis

  • Une compréhension des concepts de base de SQL et des données
  • Une expérience en programmation avec Python ou Scala
  • Une familiarité avec les services cloud et les environnements virtuels

PUBLIC CIBLÉ

  • Data engineers débutants et confirmés
  • Développeurs ETL/BI et ingénieurs en analyse de données
  • Équipes de plateformes de données et DevOps supportant les pipelines
 350 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires