Prenez contact avec nous

Plan du cours

Introduction à Apache Airflow

  • Qu'est-ce que l'orchestration de workflows
  • Caractéristiques et avantages clés d'Apache Airflow
  • Améliorations d'Airflow 2.x et aperçu de l'écosystème

Architecture et concepts fondamentaux

  • Planificateur, serveur Web et processus workers
  • DAG, tâches et opérateurs
  • Exécuteurs et backends (Local, Celery, Kubernetes)

Installation et configuration

  • Installation d'Airflow sur site et dans le cloud
  • Configuration d'Airflow avec différents exécuteurs
  • Mise en place des bases de données de métadonnées et des connexions

Navigation dans l'interface utilisateur et l'interface de ligne de commande (CLI) d'Airflow

  • Exploration de l'interface Web d'Airflow
  • Surveillance des exécutions de DAG, des tâches et des journaux
  • Utilisation de la CLI d'Airflow pour l'administration

Conception et gestion des DAG

  • Création de DAG avec l'API TaskFlow
  • Utilisation d'opérateurs, de capteurs et de hooks
  • Gestion des dépendances et des intervalles de planification

Intégration d'Airflow aux données et aux services cloud

  • Connexion aux bases de données, aux API et aux files d'attente de messages
  • Exécution de pipelines ETL avec Airflow
  • Intégrations cloud : opérateurs AWS, GCP, Azure

Surveillance et observabilité

  • Journaux de tâches et surveillance en temps réel
  • Métriques avec Prometheus et Grafana
  • Alertes et notifications par e-mail ou Slack

Sécurisation d'Apache Airflow

  • Contrôle d'accès basé sur les rôles (RBAC)
  • Authentification avec LDAP, OAuth et SSO
  • Gestion des secrets avec Vault et les magasins de secrets cloud

Mise à l'échelle d'Apache Airflow

  • Parallélisme, concurrence et files d'attente de tâches
  • Utilisation de CeleryExecutor et KubernetesExecutor
  • Déploiement d'Airflow sur Kubernetes avec Helm

Bonnes pratiques pour la production

  • Gestion de version et CI/CD pour les DAG
  • Tests et débogage des DAG
  • Maintien de la fiabilité et des performances à grande échelle

Dépannage et optimisation

  • Débogage des DAG et des tâches échoués
  • Optimisation des performances des DAG
  • Pièges courants et comment les éviter

Résumé et prochaines étapes

Pré requis

  • Expérience en programmation Python
  • Connaissance des concepts d'ingénierie des données ou de DevOps
  • Compréhension de l'ETL ou de l'orchestration de workflows

Audience cible

  • Data scientists
  • Ingénieurs des données
  • Ingénieurs DevOps et infrastructure
  • Développeurs logiciels
 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (7)

Cours à venir

Catégories Similaires