Prenez contact avec nous

Plan du cours

Introduction à l'AIOps

  • Qu'est-ce que l'AIOps et pourquoi c'est important
  • Surveillance traditionnelle vs. observabilité pilotée par l'AIOps
  • Architecture de l'AIOps et composants clés

Collecte et normalisation des données opérationnelles

  • Types de données d'observabilité : métriques, logs et traces
  • Ingestion de données depuis plusieurs sources (serveurs, conteneurs, cloud)
  • Utilisation d'agents et d'exportateurs (Prometheus, Beats, Fluentd)

Corrélation des données et détection d'anomalies

  • Corrélation des séries temporelles et méthodes statistiques
  • Utilisation de modèles de ML pour la détection d'anomalies
  • Détection d'incidents à travers les systèmes distribués

Alertes et réduction du bruit

  • Concevoir des règles et des seuils d'alerte intelligents
  • Suppression, déduplication et regroupement des alertes
  • Intégration avec Alertmanager, Slack, PagerDuty ou Opsgenie

Analyse des causes racines et visualisation

  • Utilisation de tableaux de bord pour visualiser les métriques et détecter les tendances
  • Explorer les événements et les chronologies pour l'analyse des causes racines (RCA)
  • Suivi des problèmes à travers les couches avec des outils de traçage distribué

Automatisation et remédiation

  • Déclenchement de scripts automatisés ou de workflows à partir des incidents
  • Intégration avec les systèmes ITSM (ServiceNow, Jira)
  • Cas d'utilisation : auto-guérison, mise à l'échelle, reroutage du trafic

Plateformes AIOps open source et commerciales

  • Aperçu des outils : Prometheus, Grafana, ELK, Moogsoft, Dynatrace
  • Critères d'évaluation pour sélectionner une plateforme d'AIOps
  • Démonstration et mise en pratique avec une pile sélectionnée

Résumé et prochaines étapes

Pré requis

  • Une compréhension des concepts d'opérations informatiques et de surveillance des systèmes
  • Une expérience avec des outils de surveillance ou des tableaux de bord
  • Une familiarité avec les formats de base des logs et des métriques

Public cible

  • Équipes opérationnelles responsables de l'infrastructure et des applications
  • Ingénieurs de fiabilité du site (SRE)
  • Équipes de surveillance et d'observabilité IT
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires