Prenez contact avec nous

Plan du cours

Introduction à l'apprentissage par renforcement et à l'IA agentique

  • Prise de décision dans l'incertitude et planification séquentielle
  • Composants clés du RL : agents, environnements, états et récompenses
  • Rôle du RL dans les systèmes d'IA adaptatifs et agentiques

Processus de décision markoviens (MDP)

  • Définition formelle et propriétés des MDP
  • Fonctions de valeur, équations de Bellman et programmation dynamique
  • Évaluation de politique, amélioration et itération

Apprentissage par renforcement sans modèle

  • Apprentissage Monte Carlo et par différence temporelle (TD)
  • Q-learning et SARSA
  • Pratique : implémentation de méthodes RL tabulaires en Python

Apprentissage par renforcement profond

  • Combinaison de réseaux neuronaux avec le RL pour l'approximation de fonctions
  • Deep Q-Networks (DQN) et mémoire de rejeu (experience replay)
  • Architectures Actor-Critic et gradients de politique
  • Pratique : entraînement d'un agent utilisant DQN et PPO avec Stable-Baselines3

Stratégies d'exploration et façonnage des récompenses

  • Équilibre entre exploration et exploitation (ε-greedy, UCB, méthodes d'entropie)
  • Conception de fonctions de récompense et évitement des comportements indésirables
  • Façonnage des récompenses et apprentissage par curriculum

Sujets avancés en RL et prise de décision

  • Apprentissage par renforcement multi-agents et stratégies coopératives
  • Apprentissage par renforcement hiérarchique et cadre des options
  • RL hors ligne et apprentissage par imitation pour un déploiement plus sûr

Environnements de simulation et évaluation

  • Utilisation d'OpenAI Gym et d'environnements personnalisés
  • Espaces d'action continus vs discrets
  • Métriques de performance des agents, stabilité et efficacité des échantillons

Intégration du RL dans les systèmes d'IA agentique

  • Combinaison du raisonnement et du RL dans des architectures d'agents hybrides
  • Intégration de l'apprentissage par renforcement avec des agents utilisant des outils
  • Considérations opérationnelles pour la mise à l'échelle et le déploiement

Projet de fin de cours

  • Concevoir et implémenter un agent d'apprentissage par renforcement pour une tâche simulée
  • Analyser les performances de l'entraînement et optimiser les hyperparamètres
  • Démontrer un comportement adaptatif et une prise de décision dans un contexte agentique

Résumé et prochaines étapes

Pré requis

  • Maîtrise solide de la programmation Python
  • Bonne compréhension des concepts d'apprentissage automatique et d'apprentissage profond
  • Familiarité avec l'algèbre linéaire, les probabilités et les méthodes d'optimisation de base

Audience cible

  • Ingénieurs en apprentissage par renforcement et chercheurs en IA appliquée
  • Développeurs en robotique et automatisation
  • Équipes d'ingénierie travaillant sur des systèmes d'IA adaptatifs et agentiques
 28 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (3)

Cours à venir

Catégories Similaires