Prenez contact avec nous

Plan du cours

Fondamentaux des systèmes à agents en production

  • Architectures à agents : boucles, outils, mémoire et couches d'orchestration
  • Cycle de vie des agents : développement, déploiement et exploitation continue
  • Défis de la gestion des agents à l'échelle de la production

Modèles d'infrastructure et de déploiement

  • Déploiement d'agents dans des environnements conteneurisés et cloud
  • Modèles de mise à l'échelle : mise à l'échelle horizontale vs verticale, concurrence et limitation du débit
  • Orchestration multi-agents et équilibrage de charge

Surveillance et observabilité

  • Métriques clés : latence, taux de réussite, utilisation de la mémoire et profondeur des appels d'agents
  • Traçage de l'activité des agents et des graphes d'appels
  • Instrumentation de l'observabilité avec Prometheus, OpenTelemetry et Grafana

Journalisation, audit et conformité

  • Centralisation de la journalisation et collecte d'événements structurés
  • Conformité et traçabilité dans les flux de travail à agents
  • Conception de journaux d'audit et de mécanismes de rejouabilité pour le débogage

Réglage des performances et optimisation des ressources

  • Réduction de la surcharge d'inférence et optimisation des cycles d'orchestration des agents
  • Mise en cache des modèles et embeddings légers pour un accès plus rapide
  • Tests de charge et scénarios de stress pour les pipelines d'IA

Maîtrise des coûts et gouvernance

  • Compréhension des facteurs de coût des agents : appels d'API, mémoire, calcul et intégrations externes
  • Suivi des coûts au niveau des agents et mise en œuvre de modèles de facturation interne
  • Politiques d'automatisation pour prévenir la dispersion des agents et la consommation de ressources inactives

Intégration et déploiement continus (CI/CD) et stratégies de déploiement pour les agents

  • Intégration des pipelines d'agents dans les systèmes CI/CD
  • Tests, gestion des versions et stratégies de retour arrière pour les mises à jour itératives des agents
  • Déploiements progressifs et mécanismes de déploiement sécurisés

Récupération après incident et ingénierie de la fiabilité

  • Conception pour la tolérance aux pannes et la dégradation gracieuse
  • Modèles de retry, de délai d'expiration et de disjoncteur pour la fiabilité des agents
  • Réponse aux incidents et cadres d'analyse post-mortem pour les opérations d'IA

Projet de synthèse

  • Construire et déployer un système d'IA à agents avec une surveillance complète et un suivi des coûts
  • Simuler une charge, mesurer les performances et optimiser l'utilisation des ressources
  • Présenter l'architecture finale et le tableau de bord de surveillance aux pairs

Résumé et prochaines étapes

Pré requis

  • Bonne compréhension du MLOps et des systèmes d'apprentissage automatique en production
  • Expérience avec les déploiements conteneurisés (Docker/Kubernetes)
  • Connaissance des outils d'optimisation des coûts et d'observabilité dans le cloud

Audience

  • Ingénieurs MLOps
  • Ingénieurs de la fiabilité des sites (SRE)
  • Responsables techniques supervisant l'infrastructure IA
 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (3)

Cours à venir

Catégories Similaires