Plan du cours

Introduction à Apache Airflow

  • Qu'est-ce que l'orchestration de workflows ?
  • Les principales fonctionnalités et avantages d'Apache Airflow
  • Améliorations d'Airflow 2.x et aperçu de l'écosystème

Architecture et Concepts Clés

  • Planificateur, serveur web et processus worker
  • DAGs, tâches et opérateurs
  • Exécuteurs et backends (Local, Celery, Kubernetes)

Installation et Configuration

  • Installation d'Airflow dans des environnements locaux et cloud
  • Configuration d'Airflow avec différents exécuteurs
  • Configuration de bases de données de métadonnées et de connexions

Navigation dans l'interface web et la CLI d'Airflow

  • Exploration de l'interface web d'Airflow
  • Surveillance des exécutions de DAGs, tâches et journaux
  • Utilisation de la CLI d'Airflow pour l'administration

Création et Gestion des DAGs

  • Création de DAGs avec l'API TaskFlow
  • Utilisation d'opérateurs, capteurs et connecteurs (hooks)
  • Gestion des dépendances et intervalles de planification

Intégration d'Airflow avec les Données et Services Cloud

  • Connexion à des bases de données, API et files de messages (queues)
  • Exécution de pipelines ETL avec Airflow
  • Intégrations cloud : opérateurs AWS, GCP, Azure

Surveillance et Observabilité

  • Journaux de tâches et surveillance en temps réel
  • Métriques avec Prometheus et Grafana
  • Alertes et notifications par email ou Slack

Sécurisation d'Apache Airflow

  • Contrôle d'accès basé sur les rôles (RBAC)
  • Authentification avec LDAP, OAuth et SSO (Single Sign-On)
  • Gestion des secrets avec Vault et magasins de secrets cloud

Évolutivité d'Apache Airflow

  • Parallélisme, concurrence et files d'attente de tâches
  • Utilisation de CeleryExecutor et KubernetesExecutor
  • Déploiement d'Airflow sur Kubernetes avec Helm

Bonnes Pratiques pour la Production

  • Contrôle de version et CI/CD des DAGs
  • Test et débogage des DAGs
  • Maintenance de la fiabilité et performance à grande échelle

Dépannage et Optimisation

  • Débogage des DAGs et tâches échoués
  • Optimisation de la performance des DAGs
  • Éviter les pièges courants et comment les éviter

Résumé et Prochaines Étapes

Pré requis

  • Expérience en programmation Python
  • Connaissance des concepts de data engineering ou DevOps
  • Compréhension des concepts d'ETL ou d'orchestration de workflows

Public cible

  • Scientifiques des données
  • Ingénieurs en data engineering
  • Ingénieurs DevOps et d'infrastructure
  • Développeurs logiciels
 21 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (7)

Cours à venir

Catégories Similaires