Plan du cours
Fondamentaux des systèmes à agents en production
- Architectures à agents : boucles, outils, mémoire et couches d'orchestration
- Cycle de vie des agents : développement, déploiement et exploitation continue
- Défis de la gestion des agents à l'échelle de la production
Modèles d'infrastructure et de déploiement
- Déploiement d'agents dans des environnements conteneurisés et cloud
- Modèles de mise à l'échelle : mise à l'échelle horizontale vs verticale, concurrence et limitation du débit
- Orchestration multi-agents et équilibrage de charge
Surveillance et observabilité
- Métriques clés : latence, taux de réussite, utilisation de la mémoire et profondeur des appels d'agents
- Traçage de l'activité des agents et des graphes d'appels
- Instrumentation de l'observabilité avec Prometheus, OpenTelemetry et Grafana
Journalisation, audit et conformité
- Centralisation de la journalisation et collecte d'événements structurés
- Conformité et traçabilité dans les flux de travail à agents
- Conception de journaux d'audit et de mécanismes de rejouabilité pour le débogage
Réglage des performances et optimisation des ressources
- Réduction de la surcharge d'inférence et optimisation des cycles d'orchestration des agents
- Mise en cache des modèles et embeddings légers pour un accès plus rapide
- Tests de charge et scénarios de stress pour les pipelines d'IA
Maîtrise des coûts et gouvernance
- Compréhension des facteurs de coût des agents : appels d'API, mémoire, calcul et intégrations externes
- Suivi des coûts au niveau des agents et mise en œuvre de modèles de facturation interne
- Politiques d'automatisation pour prévenir la dispersion des agents et la consommation de ressources inactives
Intégration et déploiement continus (CI/CD) et stratégies de déploiement pour les agents
- Intégration des pipelines d'agents dans les systèmes CI/CD
- Tests, gestion des versions et stratégies de retour arrière pour les mises à jour itératives des agents
- Déploiements progressifs et mécanismes de déploiement sécurisés
Récupération après incident et ingénierie de la fiabilité
- Conception pour la tolérance aux pannes et la dégradation gracieuse
- Modèles de retry, de délai d'expiration et de disjoncteur pour la fiabilité des agents
- Réponse aux incidents et cadres d'analyse post-mortem pour les opérations d'IA
Projet de synthèse
- Construire et déployer un système d'IA à agents avec une surveillance complète et un suivi des coûts
- Simuler une charge, mesurer les performances et optimiser l'utilisation des ressources
- Présenter l'architecture finale et le tableau de bord de surveillance aux pairs
Résumé et prochaines étapes
Pré requis
- Bonne compréhension du MLOps et des systèmes d'apprentissage automatique en production
- Expérience avec les déploiements conteneurisés (Docker/Kubernetes)
- Connaissance des outils d'optimisation des coûts et d'observabilité dans le cloud
Audience
- Ingénieurs MLOps
- Ingénieurs de la fiabilité des sites (SRE)
- Responsables techniques supervisant l'infrastructure IA
Nos clients témoignent (3)
Le formateur est patient et très aidant. Il maîtrise bien le sujet.
CLIFFORD TABARES - Universal Leaf Philippines, Inc.
Formation - Agentic AI for Business Automation: Use Cases & Integration
Traduction automatique
Bon mélange de connaissances et de pratique
Ion Mironescu - Facultatea S.A.I.A.P.M.
Formation - Agentic AI for Enterprise Applications
Traduction automatique
Le mélange de théorie et de pratique, ainsi que des perspectives de haut niveau et de bas niveau
Ion Mironescu - Facultatea S.A.I.A.P.M.
Formation - Autonomous Decision-Making with Agentic AI
Traduction automatique