Plan du cours

Introduction à Predictive AIOps

  • Aperçu de l'analyse prédictive dans les opérations IT
  • Sources de données pour la prédiction (journaux, métriques, événements)
  • Concepts clés en prévision des séries chronologiques et modèles d'anomalies

Conception des Modèles de Prédiction des Incidents

  • Étiquetage des incidents historiques et du comportement du système
  • Choix et formation des modèles (par exemple, LSTM, Random Forest, AutoML)
  • Évaluation de la performance du modèle et gestion des faux positifs

Collecte de Données et Ingénierie des Caractéristiques

  • Ingestion et alignement des données de journaux et métriques pour l'entrée du modèle
  • Extraction de caractéristiques à partir des données structurées et non structurées
  • Gestion du bruit et des données manquantes dans les pipelines opérationnels

Automatisation de l'Analyse des Causes Premières (RCA)

  • Corrélation basée sur graphes de services et d’infrastructure
  • Utilisation de ML pour inférer les causes probables à partir de chaînes d'événements
  • Visualisation de la RCA avec des tableaux de bord sensibles à la topologie

Remédiation et Workflow Automation

  • Intégration avec les plateformes d'automatisation (par exemple, Ansible, Rundeck)
  • Déclenchement de rollbacks, redémarrages ou redirection du trafic
  • Audit et documentation des interventions automatisées

Échelle des Pipelines Intelligents AIOps

  • MLOps pour l'observabilité : réentraînement et versionnement du modèle
  • Exécution de prédiction en temps réel sur les nœuds distribués
  • Meilleures pratiques pour déployer AIOps dans des environnements de production

Études de Cas et Applications Pratiques

  • Analyse de données d'incidents réels à l'aide de modèles prédictifs AIOps
  • Déploiement des pipelines RCA avec des données synthétiques et de production
  • Examen des cas d'utilisation industrielle : pannes dans le cloud, instabilité des microservices, dégradations du réseau

Résumé et Étapes Suivantes

Pré requis

  • Expérience avec des systèmes de surveillance tels que Prometheus ou ELK
  • Connaissance pratique de Python et d'apprentissage automatique de base
  • Familiarité avec les flux de travail de gestion des incidents

Public visé

  • Ingénieurs en fiabilité du site (SRE) senior
  • Architectes d'automatisation IT
  • Responsables des plateformes DevOps et de l’observabilité
 14 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires