Plan du cours
Introduction à Apache Airflow
- Qu'est-ce que l'orchestration de workflows ?
- Les principales fonctionnalités et avantages d'Apache Airflow
- Améliorations d'Airflow 2.x et aperçu de l'écosystème
Architecture et Concepts Clés
- Planificateur, serveur web et processus worker
- DAGs, tâches et opérateurs
- Exécuteurs et backends (Local, Celery, Kubernetes)
Installation et Configuration
- Installation d'Airflow dans des environnements locaux et cloud
- Configuration d'Airflow avec différents exécuteurs
- Configuration de bases de données de métadonnées et de connexions
Navigation dans l'interface web et la CLI d'Airflow
- Exploration de l'interface web d'Airflow
- Surveillance des exécutions de DAGs, tâches et journaux
- Utilisation de la CLI d'Airflow pour l'administration
Création et Gestion des DAGs
- Création de DAGs avec l'API TaskFlow
- Utilisation d'opérateurs, capteurs et connecteurs (hooks)
- Gestion des dépendances et intervalles de planification
Intégration d'Airflow avec les Données et Services Cloud
- Connexion à des bases de données, API et files de messages (queues)
- Exécution de pipelines ETL avec Airflow
- Intégrations cloud : opérateurs AWS, GCP, Azure
Surveillance et Observabilité
- Journaux de tâches et surveillance en temps réel
- Métriques avec Prometheus et Grafana
- Alertes et notifications par email ou Slack
Sécurisation d'Apache Airflow
- Contrôle d'accès basé sur les rôles (RBAC)
- Authentification avec LDAP, OAuth et SSO (Single Sign-On)
- Gestion des secrets avec Vault et magasins de secrets cloud
Évolutivité d'Apache Airflow
- Parallélisme, concurrence et files d'attente de tâches
- Utilisation de CeleryExecutor et KubernetesExecutor
- Déploiement d'Airflow sur Kubernetes avec Helm
Bonnes Pratiques pour la Production
- Contrôle de version et CI/CD des DAGs
- Test et débogage des DAGs
- Maintenance de la fiabilité et performance à grande échelle
Dépannage et Optimisation
- Débogage des DAGs et tâches échoués
- Optimisation de la performance des DAGs
- Éviter les pièges courants et comment les éviter
Résumé et Prochaines Étapes
Pré requis
- Expérience en programmation Python
- Connaissance des concepts de data engineering ou DevOps
- Compréhension des concepts d'ETL ou d'orchestration de workflows
Public cible
- Scientifiques des données
- Ingénieurs en data engineering
- Ingénieurs DevOps et d'infrastructure
- Développeurs logiciels
Nos clients témoignent (7)
The training was spot on. Very useful theory and exercices.
Vladimir - PUBLIC COURSE
Formation - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Formation - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Formation - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Formation - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Formation - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Formation - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.