Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à l'AIOps
- Qu'est-ce que l'AIOps et pourquoi c'est important
- Surveillance traditionnelle vs. observabilité pilotée par l'AIOps
- Architecture de l'AIOps et composants clés
Collecte et normalisation des données opérationnelles
- Types de données d'observabilité : métriques, logs et traces
- Ingestion de données depuis plusieurs sources (serveurs, conteneurs, cloud)
- Utilisation d'agents et d'exportateurs (Prometheus, Beats, Fluentd)
Corrélation des données et détection d'anomalies
- Corrélation des séries temporelles et méthodes statistiques
- Utilisation de modèles de ML pour la détection d'anomalies
- Détection d'incidents à travers les systèmes distribués
Alertes et réduction du bruit
- Concevoir des règles et des seuils d'alerte intelligents
- Suppression, déduplication et regroupement des alertes
- Intégration avec Alertmanager, Slack, PagerDuty ou Opsgenie
Analyse des causes racines et visualisation
- Utilisation de tableaux de bord pour visualiser les métriques et détecter les tendances
- Explorer les événements et les chronologies pour l'analyse des causes racines (RCA)
- Suivi des problèmes à travers les couches avec des outils de traçage distribué
Automatisation et remédiation
- Déclenchement de scripts automatisés ou de workflows à partir des incidents
- Intégration avec les systèmes ITSM (ServiceNow, Jira)
- Cas d'utilisation : auto-guérison, mise à l'échelle, reroutage du trafic
Plateformes AIOps open source et commerciales
- Aperçu des outils : Prometheus, Grafana, ELK, Moogsoft, Dynatrace
- Critères d'évaluation pour sélectionner une plateforme d'AIOps
- Démonstration et mise en pratique avec une pile sélectionnée
Résumé et prochaines étapes
Pré requis
- Une compréhension des concepts d'opérations informatiques et de surveillance des systèmes
- Une expérience avec des outils de surveillance ou des tableaux de bord
- Une familiarité avec les formats de base des logs et des métriques
Public cible
- Équipes opérationnelles responsables de l'infrastructure et des applications
- Ingénieurs de fiabilité du site (SRE)
- Équipes de surveillance et d'observabilité IT
14 Heures