Plan du cours
Introduction à Apache Airflow
- Qu'est-ce que l'orchestration de workflows ?
- Les principales fonctionnalités et avantages d'Apache Airflow
- Améliorations d'Airflow 2.x et aperçu de l'écosystème
Architecture et Concepts Clés
- Planificateur, serveur web et processus worker
- DAGs, tâches et opérateurs
- Exécuteurs et backends (Local, Celery, Kubernetes)
Installation et Configuration
- Installation d'Airflow dans des environnements locaux et cloud
- Configuration d'Airflow avec différents exécuteurs
- Configuration de bases de données de métadonnées et de connexions
Navigation dans l'interface web et la CLI d'Airflow
- Exploration de l'interface web d'Airflow
- Surveillance des exécutions de DAGs, tâches et journaux
- Utilisation de la CLI d'Airflow pour l'administration
Création et Gestion des DAGs
- Création de DAGs avec l'API TaskFlow
- Utilisation d'opérateurs, capteurs et connecteurs (hooks)
- Gestion des dépendances et intervalles de planification
Intégration d'Airflow avec les Données et Services Cloud
- Connexion à des bases de données, API et files de messages (queues)
- Exécution de pipelines ETL avec Airflow
- Intégrations cloud : opérateurs AWS, GCP, Azure
Surveillance et Observabilité
- Journaux de tâches et surveillance en temps réel
- Métriques avec Prometheus et Grafana
- Alertes et notifications par email ou Slack
Sécurisation d'Apache Airflow
- Contrôle d'accès basé sur les rôles (RBAC)
- Authentification avec LDAP, OAuth et SSO (Single Sign-On)
- Gestion des secrets avec Vault et magasins de secrets cloud
Évolutivité d'Apache Airflow
- Parallélisme, concurrence et files d'attente de tâches
- Utilisation de CeleryExecutor et KubernetesExecutor
- Déploiement d'Airflow sur Kubernetes avec Helm
Bonnes Pratiques pour la Production
- Contrôle de version et CI/CD des DAGs
- Test et débogage des DAGs
- Maintenance de la fiabilité et performance à grande échelle
Dépannage et Optimisation
- Débogage des DAGs et tâches échoués
- Optimisation de la performance des DAGs
- Éviter les pièges courants et comment les éviter
Résumé et Prochaines Étapes
Pré requis
- Expérience en programmation Python
- Connaissance des concepts de data engineering ou DevOps
- Compréhension des concepts d'ETL ou d'orchestration de workflows
Public cible
- Scientifiques des données
- Ingénieurs en data engineering
- Ingénieurs DevOps et d'infrastructure
- Développeurs logiciels
Nos clients témoignent (7)
L'instructeur a adapté la formation au niveau des participants et a répondu à toutes les questions. Il était très communicatif, et il était facile d'interagir avec lui. J'ai vraiment apprécié le format de la formation, qui comprenait de nombreux exercices pratiques. Dans l'ensemble, c'était une séance très engageante et bien organisée.
Jacek Chlopik - ZAKLAD UBEZPIECZEN SPOLECZNYCH
Formation - Apache Airflow: Building and Managing Data Pipelines
Traduction automatique
La formation était excellente. La théorie et les exercices étaient très utiles.
Vladimir - PUBLIC COURSE
Formation - Apache Airflow
Traduction automatique
La formation était parfaite sous tous les aspects. Des aspects théoriques utiles et des exercices pratiques.
Vladimir - PUBLIC COURSE
Formation - Apache Airflow
Traduction automatique
La formation était parfaite sous tous les aspects. Des aspects théoriques utiles et des exercices pratiques.
Vladimir - PUBLIC COURSE
Formation - Apache Airflow
Traduction automatique
La formation était parfaite sous tous les aspects. Des aspects théoriques utiles et des exercices pratiques.
Vladimir - PUBLIC COURSE
Formation - Apache Airflow
Traduction automatique
La formation était parfaite sous tous les aspects. Des aspects théoriques utiles et des exercices pratiques.
Vladimir - PUBLIC COURSE
Formation - Apache Airflow
Traduction automatique
La formation était parfaite sous tous les aspects. Des aspects théoriques utiles et des exercices pertinents.
Vladimir - PUBLIC COURSE
Formation - Apache Airflow
Traduction automatique