Prenez contact avec nous

Plan du cours

Conception d'une architecture AIOps ouverte

  • Aperçu des composants clés des pipelines AIOps open source
  • Flux de données de l'ingestion à l'alerte
  • Comparaison des outils et stratégie d'intégration

Collecte et agrégation des données

  • Ingestion de données temporelles avec Prometheus
  • Capture des journaux avec Logstash et Beats
  • Normalisation des données pour la corrélation inter-sources

Création de tableaux de bord d'observabilité

  • Visualisation des métriques avec Grafana
  • Construction de tableaux de bord Kibana pour l'analyse des journaux
  • Utilisation des requêtes Elasticsearch pour extraire des informations opérationnelles

Détection d'anomalies et prédiction des incidents

  • Exportation des données d'observabilité vers des pipelines Python
  • Entraînement de modèles de ML pour la détection des valeurs aberrantes et la prévision
  • Déploiement de modèles pour l'inférence en direct dans le pipeline d'observabilité

Alerte et automatisation avec des outils open source

  • Création de règles d'alerte Prometheus et routage Alertmanager
  • Déclenchement de scripts ou de workflows d'API pour une réponse automatique
  • Utilisation d'outils d'orchestration open source (par exemple, Ansible, Rundeck)

Considérations d'intégration et de scalabilité

  • Gestion de l'ingestion à haut débit et de la rétention à long terme
  • Sécurité et contrôle d'accès dans les stacks open source
  • Mise à l'échelle indépendante de chaque couche : ingestion, traitement, alerte

Applications réelles et extensions

  • Études de cas : ajustement des performances, prévention des temps d'arrêt et optimisation des coûts
  • Extension des pipelines avec des outils de traçage ou des graphes de services
  • Meilleures pratiques pour exécuter et maintenir AIOps en production

Résumé et prochaines étapes

Pré requis

  • Expérience avec des outils d'observabilité tels que Prometheus ou ELK
  • Connaissance pratique de Python et des fondamentaux du machine learning
  • Compréhension des opérations informatiques et des workflows d'alerte

Public cible

  • Ingénieurs SRE (Site Reliability Engineering) avancés
  • Ingénieurs en données travaillant dans le domaine des opérations
  • Chefs de plateforme DevOps et architectes d'infrastructure
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires