Plan du cours
Introduction à l'apprentissage par renforcement et à l'IA agentique
- Prise de décision dans l'incertitude et planification séquentielle
- Composants clés du RL : agents, environnements, états et récompenses
- Rôle du RL dans les systèmes d'IA adaptatifs et agentiques
Processus de décision markoviens (MDP)
- Définition formelle et propriétés des MDP
- Fonctions de valeur, équations de Bellman et programmation dynamique
- Évaluation de politique, amélioration et itération
Apprentissage par renforcement sans modèle
- Apprentissage Monte Carlo et par différence temporelle (TD)
- Q-learning et SARSA
- Pratique : implémentation de méthodes RL tabulaires en Python
Apprentissage par renforcement profond
- Combinaison de réseaux neuronaux avec le RL pour l'approximation de fonctions
- Deep Q-Networks (DQN) et mémoire de rejeu (experience replay)
- Architectures Actor-Critic et gradients de politique
- Pratique : entraînement d'un agent utilisant DQN et PPO avec Stable-Baselines3
Stratégies d'exploration et façonnage des récompenses
- Équilibre entre exploration et exploitation (ε-greedy, UCB, méthodes d'entropie)
- Conception de fonctions de récompense et évitement des comportements indésirables
- Façonnage des récompenses et apprentissage par curriculum
Sujets avancés en RL et prise de décision
- Apprentissage par renforcement multi-agents et stratégies coopératives
- Apprentissage par renforcement hiérarchique et cadre des options
- RL hors ligne et apprentissage par imitation pour un déploiement plus sûr
Environnements de simulation et évaluation
- Utilisation d'OpenAI Gym et d'environnements personnalisés
- Espaces d'action continus vs discrets
- Métriques de performance des agents, stabilité et efficacité des échantillons
Intégration du RL dans les systèmes d'IA agentique
- Combinaison du raisonnement et du RL dans des architectures d'agents hybrides
- Intégration de l'apprentissage par renforcement avec des agents utilisant des outils
- Considérations opérationnelles pour la mise à l'échelle et le déploiement
Projet de fin de cours
- Concevoir et implémenter un agent d'apprentissage par renforcement pour une tâche simulée
- Analyser les performances de l'entraînement et optimiser les hyperparamètres
- Démontrer un comportement adaptatif et une prise de décision dans un contexte agentique
Résumé et prochaines étapes
Pré requis
- Maîtrise solide de la programmation Python
- Bonne compréhension des concepts d'apprentissage automatique et d'apprentissage profond
- Familiarité avec l'algèbre linéaire, les probabilités et les méthodes d'optimisation de base
Audience cible
- Ingénieurs en apprentissage par renforcement et chercheurs en IA appliquée
- Développeurs en robotique et automatisation
- Équipes d'ingénierie travaillant sur des systèmes d'IA adaptatifs et agentiques
Nos clients témoignent (3)
Le formateur est patient et très aidant. Il maîtrise bien le sujet.
CLIFFORD TABARES - Universal Leaf Philippines, Inc.
Formation - Agentic AI for Business Automation: Use Cases & Integration
Traduction automatique
Bon mélange de connaissances et de pratique
Ion Mironescu - Facultatea S.A.I.A.P.M.
Formation - Agentic AI for Enterprise Applications
Traduction automatique
Le mélange de théorie et de pratique, ainsi que des perspectives de haut niveau et de bas niveau
Ion Mironescu - Facultatea S.A.I.A.P.M.
Formation - Autonomous Decision-Making with Agentic AI
Traduction automatique