Prenez contact avec nous

Plan du cours

Introduction à l'AIOps prédictif

  • Aperçu de l'analyse prédictive dans les opérations informatiques
  • Sources de données pour la prédiction (logs, métriques, événements)
  • Concepts clés de la prévision des séries chronologiques et des patterns d'anomalies

Conception de modèles de prédiction des incidents

  • Étiquetage des incidents historiques et du comportement du système
  • Choix et entraînement des modèles (par exemple, LSTM, Random Forest, AutoML)
  • Évaluation de la performance des modèles et gestion des faux positifs

Collecte de données et ingénierie des fonctionnalités

  • Ingestion et alignement des données de logs et de métriques pour l'entrée du modèle
  • Extraction des fonctionnalités à partir de données structurées et non structurées
  • Gestion du bruit et des données manquantes dans les pipelines opérationnels

Automatisation de l'analyse des causes racines (RCA)

  • Corrélation basée sur les graphiques des services et de l'infrastructure
  • Utilisation du ML pour déduire les causes racines probables à partir des chaînes d'événements
  • Visualisation de l'analyse des causes racines avec des tableaux de bord conscients de la topologie

Correction et automatisation des flux de travail

  • Intégration avec des plateformes d'automatisation (par exemple, Ansible, Rundeck)
  • Déclenchement des annulations, redémarrages ou redirections de trafic
  • Vérification et documentation des interventions automatisées

Mise à l'échelle des pipelines AIOps intelligents

  • MLOps pour l'observabilité : réentraînement et versionnement des modèles
  • Exécution des prédictions en temps réel sur des nœuds distribués
  • Meilleures pratiques pour déployer l'AIOps dans des environnements de production

Études de cas et applications pratiques

  • Analyse des données d'incidents réels à l'aide de modèles d'AIOps prédictifs
  • Déploiement de pipelines RCA avec des données synthétiques et de production
  • Examen des cas d'utilisation dans l'industrie : pannes de cloud, instabilité des microservices, dégradations réseau

Résumé et prochaines étapes

Pré requis

  • Expérience avec des systèmes de surveillance tels que Prometheus ou ELK
  • Connaissance pratique de Python et des bases de l'apprentissage automatique
  • Familiarité avec les flux de travail de gestion des incidents

Public cible

  • Ingénieurs seniors de la fiabilité des sites (SRE)
  • Architectes en automatisation informatique
  • Chefs de plateformes DevOps et d'observabilité
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires