Plan du cours

Introduction à AIOps

  • Qu'est-ce que AIOps et pourquoi cela compte
  • Surveillance traditionnelle vs. observabilité pilotée par AIOps
  • Architecture de AIOps et composants clés

Collecte et Normalisation des Données Opérationnelles

  • Types de données d'observabilité : métriques, journaux et traces
  • Ingestion de données à partir de multiples sources (serveurs, conteneurs, cloud)
  • Utilisation d’agents et d’exportateurs (Prometheus, Beats, Fluentd)

Corrélation des Données et Détection Anomalique

  • Corrélation de séries temporelles et méthodes statistiques
  • Utilisation de modèles ML pour la détection d'anomalies
  • Détection d'incidents dans des systèmes distribués

Alertes et Réduction du Bruit

  • Conception d’alertes intelligentes et seuils
  • Suppression, déduplication et regroupement d'alertes
  • Intégration avec Alertmanager, Slack, PagerDuty ou Opsgenie

Analyse de la Cause Première et Visualisation

  • Utilisation de tableaux de bord pour visualiser les métriques et détecter des tendances
  • Exploration d'événements et de timelines pour l'analyse de cause première (RCA)
  • Suivi des problèmes à travers les couches avec des outils de traçage distribué

Automation et Réparation

  • Déclenchement d’scripts ou workflows automatisés à partir d'incidents
  • Intégration avec des systèmes ITSM (ServiceNow, Jira)
  • Cas d'utilisation : auto-guérison, échelonnement, réacheminement du trafic

Plateformes Open Source et Commerciales de AIOps

  • Aperçu des outils : Prometheus, Grafana, ELK, Moogsoft, Dynatrace
  • Critères d'évaluation pour sélectionner une plateforme de AIOps
  • Démonstration et pratique avec un stack sélectionné

Résumé et Étapes Suivantes

Pré requis

  • Une compréhension des opérations IT et des concepts de surveillance système
  • Expérience avec des outils ou des tableaux de bord de surveillance
  • Familiarité avec les formats de base des journaux et des métriques

Public cible

  • Les équipes d'exploitation responsables de l'infrastructure et des applications
  • Les ingénieurs de fiabilité des sites (SREs)
  • Les équipes de surveillance IT et observabilité
 14 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires