Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Conception d'une architecture AIOps ouverte
- Aperçu des composants clés des pipelines AIOps open source
- Flux de données de l'ingestion à l'alerte
- Comparaison des outils et stratégie d'intégration
Collecte et agrégation des données
- Ingestion de données temporelles avec Prometheus
- Capture des journaux avec Logstash et Beats
- Normalisation des données pour la corrélation inter-sources
Création de tableaux de bord d'observabilité
- Visualisation des métriques avec Grafana
- Construction de tableaux de bord Kibana pour l'analyse des journaux
- Utilisation des requêtes Elasticsearch pour extraire des informations opérationnelles
Détection d'anomalies et prédiction des incidents
- Exportation des données d'observabilité vers des pipelines Python
- Entraînement de modèles de ML pour la détection des valeurs aberrantes et la prévision
- Déploiement de modèles pour l'inférence en direct dans le pipeline d'observabilité
Alerte et automatisation avec des outils open source
- Création de règles d'alerte Prometheus et routage Alertmanager
- Déclenchement de scripts ou de workflows d'API pour une réponse automatique
- Utilisation d'outils d'orchestration open source (par exemple, Ansible, Rundeck)
Considérations d'intégration et de scalabilité
- Gestion de l'ingestion à haut débit et de la rétention à long terme
- Sécurité et contrôle d'accès dans les stacks open source
- Mise à l'échelle indépendante de chaque couche : ingestion, traitement, alerte
Applications réelles et extensions
- Études de cas : ajustement des performances, prévention des temps d'arrêt et optimisation des coûts
- Extension des pipelines avec des outils de traçage ou des graphes de services
- Meilleures pratiques pour exécuter et maintenir AIOps en production
Résumé et prochaines étapes
Pré requis
- Expérience avec des outils d'observabilité tels que Prometheus ou ELK
- Connaissance pratique de Python et des fondamentaux du machine learning
- Compréhension des opérations informatiques et des workflows d'alerte
Public cible
- Ingénieurs SRE (Site Reliability Engineering) avancés
- Ingénieurs en données travaillant dans le domaine des opérations
- Chefs de plateforme DevOps et architectes d'infrastructure
14 Heures