Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à Predictive AIOps
- Aperçu de l'analyse prédictive dans les opérations IT
- Sources de données pour la prédiction (journaux, métriques, événements)
- Concepts clés en prévision des séries chronologiques et modèles d'anomalies
Conception des Modèles de Prédiction des Incidents
- Étiquetage des incidents historiques et du comportement du système
- Choix et formation des modèles (par exemple, LSTM, Random Forest, AutoML)
- Évaluation de la performance du modèle et gestion des faux positifs
Collecte de Données et Ingénierie des Caractéristiques
- Ingestion et alignement des données de journaux et métriques pour l'entrée du modèle
- Extraction de caractéristiques à partir des données structurées et non structurées
- Gestion du bruit et des données manquantes dans les pipelines opérationnels
Automatisation de l'Analyse des Causes Premières (RCA)
- Corrélation basée sur graphes de services et d’infrastructure
- Utilisation de ML pour inférer les causes probables à partir de chaînes d'événements
- Visualisation de la RCA avec des tableaux de bord sensibles à la topologie
Remédiation et Workflow Automation
- Intégration avec les plateformes d'automatisation (par exemple, Ansible, Rundeck)
- Déclenchement de rollbacks, redémarrages ou redirection du trafic
- Audit et documentation des interventions automatisées
Échelle des Pipelines Intelligents AIOps
- MLOps pour l'observabilité : réentraînement et versionnement du modèle
- Exécution de prédiction en temps réel sur les nœuds distribués
- Meilleures pratiques pour déployer AIOps dans des environnements de production
Études de Cas et Applications Pratiques
- Analyse de données d'incidents réels à l'aide de modèles prédictifs AIOps
- Déploiement des pipelines RCA avec des données synthétiques et de production
- Examen des cas d'utilisation industrielle : pannes dans le cloud, instabilité des microservices, dégradations du réseau
Résumé et Étapes Suivantes
Pré requis
- Expérience avec des systèmes de surveillance tels que Prometheus ou ELK
- Connaissance pratique de Python et d'apprentissage automatique de base
- Familiarité avec les flux de travail de gestion des incidents
Public visé
- Ingénieurs en fiabilité du site (SRE) senior
- Architectes d'automatisation IT
- Responsables des plateformes DevOps et de l’observabilité
14 Heures