Plan du cours

Conception d'une Architecture Ouverte AIOps

  • Aperçu des composants clés dans les pipelines ouverts AIOps
  • Flux de données depuis l'ingestion jusqu'à la mise en alerte
  • Comparaison des outils et stratégie d'intégration

Collecte et Aggregation de Données

  • Ingestion de données de séries temporelles avec Prometheus
  • Capture des journaux avec Logstash et Beats
  • Normalisation des données pour la corrélation inter-sources

Conception de Tableaux de Bord d'Observabilité

  • Visionnage des métriques avec Grafana
  • Création de tableaux de bord Kibana pour l'analyse des journaux
  • Utilisation de requêtes Elasticsearch pour extraire des insights opérationnels

Détection d'Anomalies et Prévision des Incidents

  • Exportation des données d'observabilité vers les pipelines Python
  • Formation de modèles ML pour la détection d'outliers et la prévision
  • Déploiement de modèles pour l'inférence en temps réel dans le pipeline d'observabilité

Mise en Alerte et Automatisation avec des Outils Open Source

  • Création de règles d'alertes Prometheus et routage d'Alertmanager
  • Démarrage de scripts ou workflows API pour une réponse automatique
  • Utilisation d'outils open source d'orchestration (par exemple, Ansible, Rundeck)

Considérations sur l'Intégration et l'Echelle

  • Gestion de l'ingestion à haute volumétrie et la conservation à long terme
  • Sécurité et contrôle d'accès dans les piles open source
  • Echelonnement indépendant de chaque couche : ingestion, traitement, alerte

Applications Réelles et Extensions

  • Cas pratiques : réglage des performances, prévention des pannes, optimisation des coûts
  • Prolongement des pipelines avec des outils de tracing ou graphes de services
  • Bonnes pratiques pour l'exécution et la maintenance du AIOps en production

Résumé et Prochaines Étapes

Pré requis

  • Expérience avec des outils d'observabilité tels que Prometheus ou ELK
  • Connaissance pratique de Python et des fondamentaux de l'apprentissage automatique
  • Compréhension des opérations IT et des flux de travail de notification

Public cible

  • Ingénieurs avancés en fiabilité du site (SRE)
  • Ingénieurs données travaillant dans les opérations
  • DevOps responsables de plateforme et architectes d'infrastructure
 14 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires