Plan du cours

Introduction à l'AIOps

  • Qu'est-ce que l'AIOps et pourquoi c'est important
  • Surveillance traditionnelle vs. observabilité pilotée par l'AIOps
  • Architecture AIOps et composants clés

Collecte et normalisation des données opérationnelles

  • Types de données d'observabilité : métriques, journaux et traces
  • Ingestion de données à partir de sources multiples (serveurs, conteneurs, cloud)
  • Utilisation d'agents et d'exportateurs (Prometheus, Beats, Fluentd)

Corrélation de données et détection d'anomalies

  • Corrélation temporelle et méthodes statistiques
  • Utilisation de modèles ML pour la détection d'anomalies
  • Détection d'incidents dans les systèmes distribués

Alerting et réduction du bruit

  • Conception de règles et seuils d'alerte intelligentes
  • Suppression, déduplication et regroupement des alertes
  • Intégration avec Alertmanager, Slack, PagerDuty ou Opsgenie

Analyse de la cause profonde et visualisation

  • Utilisation de tableaux de bord pour visualiser les métriques et détecter les tendances
  • Exploration des événements et des chronologies pour l'analyse de la cause profonde (RCA)
  • Traçage des problèmes à travers les couches avec des outils de traçage distribué

Automatisation et remédiation

  • Déclenchement de scripts ou workflows automatisés à partir d'incidents
  • Intégration avec des systèmes ITSM (ServiceNow, Jira)
  • Cas d'utilisation : auto-guérison, mise à l'échelle, reroutage du trafic

Plateformes AIOps open-source et commerciales

  • Vue d'ensemble des outils : Prometheus, Grafana, ELK, Moogsoft, Dynatrace
  • Critères d'évaluation pour choisir une plateforme AIOps
  • Démonstration et mise en pratique avec un stack sélectionné

Résumé et étapes suivantes

Pré requis

  • Une compréhension des opérations IT et des concepts de surveillance des systèmes
  • Expérience avec des outils de surveillance ou des tableaux de bord
  • Familiarité avec les formats de base des journaux et des métriques

Public cible

  • Équipes d'opérations responsables de l'infrastructure et des applications
  • Ingénieurs en fiabilité du site (SREs)
  • Équipes de surveillance IT et d'observabilité
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires