Plan du cours

Conception d'une Architecture Ouverte AIOps

  • Aperçu des composants clés dans les pipelines ouverts AIOps
  • Flux de données de l'ingestion aux alertes
  • Comparaison et stratégie d'intégration des outils

Collecte et Agrégation des Données

  • Ingérer les données en série temporelle avec Prometheus
  • Capturer les journaux avec Logstash et Beats
  • Normaliser les données pour la corrélation inter-sources

Construction de Tableaux de Bord Observables

  • Visualisation des métriques avec Grafana
  • Création de tableaux de bord Kibana pour l'analyse des journaux
  • Utilisation de requêtes Elasticsearch pour extraire des insights opérationnels

Détection d'Anomalies et Prédiction d'Incidents

  • Exporter les données observables vers des pipelines Python
  • Formation de modèles ML pour la détection d'anomalies et la prévision
  • Déploiement des modèles pour l'inférence en temps réel dans le pipeline observable

Alertes et Automatisation avec Des Outils Ouverts

  • Création de règles d'alerte Prometheus et routage Alertmanager
  • Déclenchement de scripts ou workflows API pour la réponse automatique
  • Utilisation des outils d'orchestration open-source (par exemple, Ansible, Rundeck)

Considérations sur l'Intégration et l'Echelle

  • Gestion de l'ingestion à haute volumétrie et de la rétention à long terme
  • Sécurité et contrôle d'accès dans les piles open-source
  • Echelonnement indépendant de chaque couche : ingestion, traitement, alertes

Applications Réelles et Extensions

  • Études de cas : ajustement des performances, prévention des pannes, optimisation des coûts
  • Extension des pipelines avec des outils de tracage ou des graphes de services
  • Meilleures pratiques pour l'exécution et la maintenance du AIOps en production

Résumé et Étapes Suivantes

Pré requis

  • Expérience avec des outils d'observabilité tels que Prometheus ou ELK
  • Connaissance pratique de Python et des fondements de l'apprentissage automatique
  • Compréhension des opérations informatiques et des workflows d'alerte

Public visé

  • Ingénieurs en fiabilité des sites avancés (SRE)
  • Ingénieurs de données travaillant dans les opérations
  • Chefs de plateforme DevOps et architectes d'infrastructure
 14 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires