Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à l'AIOps prédictif
- Aperçu de l'analyse prédictive dans les opérations informatiques
- Sources de données pour la prédiction (logs, métriques, événements)
- Concepts clés de la prévision des séries chronologiques et des patterns d'anomalies
Conception de modèles de prédiction des incidents
- Étiquetage des incidents historiques et du comportement du système
- Choix et entraînement des modèles (par exemple, LSTM, Random Forest, AutoML)
- Évaluation de la performance des modèles et gestion des faux positifs
Collecte de données et ingénierie des fonctionnalités
- Ingestion et alignement des données de logs et de métriques pour l'entrée du modèle
- Extraction des fonctionnalités à partir de données structurées et non structurées
- Gestion du bruit et des données manquantes dans les pipelines opérationnels
Automatisation de l'analyse des causes racines (RCA)
- Corrélation basée sur les graphiques des services et de l'infrastructure
- Utilisation du ML pour déduire les causes racines probables à partir des chaînes d'événements
- Visualisation de l'analyse des causes racines avec des tableaux de bord conscients de la topologie
Correction et automatisation des flux de travail
- Intégration avec des plateformes d'automatisation (par exemple, Ansible, Rundeck)
- Déclenchement des annulations, redémarrages ou redirections de trafic
- Vérification et documentation des interventions automatisées
Mise à l'échelle des pipelines AIOps intelligents
- MLOps pour l'observabilité : réentraînement et versionnement des modèles
- Exécution des prédictions en temps réel sur des nœuds distribués
- Meilleures pratiques pour déployer l'AIOps dans des environnements de production
Études de cas et applications pratiques
- Analyse des données d'incidents réels à l'aide de modèles d'AIOps prédictifs
- Déploiement de pipelines RCA avec des données synthétiques et de production
- Examen des cas d'utilisation dans l'industrie : pannes de cloud, instabilité des microservices, dégradations réseau
Résumé et prochaines étapes
Pré requis
- Expérience avec des systèmes de surveillance tels que Prometheus ou ELK
- Connaissance pratique de Python et des bases de l'apprentissage automatique
- Familiarité avec les flux de travail de gestion des incidents
Public cible
- Ingénieurs seniors de la fiabilité des sites (SRE)
- Architectes en automatisation informatique
- Chefs de plateformes DevOps et d'observabilité
14 Heures