Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à l'AIOps
- Qu'est-ce que l'AIOps et pourquoi c'est important
- Surveillance traditionnelle vs. observabilité pilotée par l'AIOps
- Architecture AIOps et composants clés
Collecte et normalisation des données opérationnelles
- Types de données d'observabilité : métriques, journaux et traces
- Ingestion de données à partir de sources multiples (serveurs, conteneurs, cloud)
- Utilisation d'agents et d'exportateurs (Prometheus, Beats, Fluentd)
Corrélation de données et détection d'anomalies
- Corrélation temporelle et méthodes statistiques
- Utilisation de modèles ML pour la détection d'anomalies
- Détection d'incidents dans les systèmes distribués
Alerting et réduction du bruit
- Conception de règles et seuils d'alerte intelligentes
- Suppression, déduplication et regroupement des alertes
- Intégration avec Alertmanager, Slack, PagerDuty ou Opsgenie
Analyse de la cause profonde et visualisation
- Utilisation de tableaux de bord pour visualiser les métriques et détecter les tendances
- Exploration des événements et des chronologies pour l'analyse de la cause profonde (RCA)
- Traçage des problèmes à travers les couches avec des outils de traçage distribué
Automatisation et remédiation
- Déclenchement de scripts ou workflows automatisés à partir d'incidents
- Intégration avec des systèmes ITSM (ServiceNow, Jira)
- Cas d'utilisation : auto-guérison, mise à l'échelle, reroutage du trafic
Plateformes AIOps open-source et commerciales
- Vue d'ensemble des outils : Prometheus, Grafana, ELK, Moogsoft, Dynatrace
- Critères d'évaluation pour choisir une plateforme AIOps
- Démonstration et mise en pratique avec un stack sélectionné
Résumé et étapes suivantes
Pré requis
- Une compréhension des opérations IT et des concepts de surveillance des systèmes
- Expérience avec des outils de surveillance ou des tableaux de bord
- Familiarité avec les formats de base des journaux et des métriques
Public cible
- Équipes d'opérations responsables de l'infrastructure et des applications
- Ingénieurs en fiabilité du site (SREs)
- Équipes de surveillance IT et d'observabilité
14 Heures