Plan du cours

Introduction aux outils Open Source pour AIOps

  • Aperçu des concepts et avantages de AIOps
  • Prometheus et Grafana dans la pile d'observabilité
  • Où se situe le machine learning (ML) dans AIOps : analyse prédictive versus réactive

Configuration de Prometheus et Grafana

  • Installation et configuration de Prometheus pour la collecte de séries temporelles
  • Création de tableaux de bord dans Grafana à l'aide de métriques en temps réel
  • Exploration des exportateurs, du relabeling et de la découverte de services

Prétraitement des données pour le machine learning (ML)

  • Extraction et transformation des métriques Prometheus
  • Préparation des jeux de données pour la détection d'anomalies et la prévision
  • Utilisation des transformations de Grafana ou des pipelines Python

Application du machine learning (ML) pour la détection d'anomalies

  • Modèles ML basiques pour la détection de valeurs aberrantes (par exemple, Forêt d'Isolation, SVM à une classe)
  • Formation et évaluation des modèles sur les données de séries temporelles
  • Visualisation des anomalies dans les tableaux de bord Grafana

Métriques Forecasting avec le machine learning (ML)

  • Construction de modèles prédictifs simples (ARIMA, Prophet, introduction aux LSTM)
  • Prévision de la charge système ou de l'utilisation des ressources
  • Utilisation des prévisions pour des alertes anticipées et des décisions d'échelle

Intégration du machine learning (ML) avec les alertes et l'automatisation

  • Définition de règles d'alerte basées sur la sortie ML ou des seuils
  • Utilisation d'Alertmanager et de la routage des notifications
  • Activation de scripts ou de flux de travail automatisés en cas de détection d'anomalies

Échelle et mise en œuvre opérationnelle de AIOps

  • Intégration des outils externes d'observabilité (par exemple, la pile ELK, Moogsoft, Dynatrace)
  • Mise en œuvre opérationnelle des modèles ML dans les pipelines d'observabilité
  • Meilleures pratiques pour AIOps à grande échelle

Résumé et prochaines étapes

Pré requis

  • Une compréhension des concepts de surveillance du système et d'observabilité
  • Expérience avec Grafana ou Prometheus
  • Connaissance de Python et des principes de base de l'apprentissage automatique

Public cible

  • Ingénieurs en observabilité
  • Équipes d'infrastructure et DevOps
  • Architectes de plateformes de surveillance et ingénieurs pour la fiabilité des sites (SRE)
 14 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires