Prenez contact avec nous

Plan du cours

1. Introduction à l'apprentissage par renforcement profond

  • Qu'est-ce que l'apprentissage par renforcement ?
  • Différences entre l'apprentissage supervisé, non supervisé et par renforcement
  • Applications du DRL en 2025 (robotique, santé, finance, logistique)
  • Compréhension de la boucle d'interaction agent-environnement

2. Fondamentaux de l'apprentissage par renforcement

  • Processus de décision de Markov (MDP)
  • État, action, récompense, politique et fonctions de valeur
  • Compromis exploration vs exploitation
  • Méthodes de Monte Carlo et apprentissage par différence temporelle (TD)

3. Implémentation d'algorithmes RL de base

  • Méthodes tabulaires : programmation dynamique, évaluation et itération de politique
  • Q-Learning et SARSA
  • Exploration epsilon-greedy et stratégies de décroissance
  • Implémentation d'environnements RL avec OpenAI Gymnasium

4. Transition vers l'apprentissage par renforcement profond

  • Limitations des méthodes tabulaires
  • Utilisation des réseaux neuronaux pour l'approximation de fonctions
  • Architecture et flux de travail des Deep Q-Networks (DQN)
  • Rejoue d'expériences et réseaux cibles

5. Algorithmes DRL avancés

  • Double DQN, Dueling DQN et Rejoue d'expériences prioritaire
  • Méthodes de gradients de politique : algorithme REINFORCE
  • Architectures Actor-Critic (A2C, A3C)
  • Optimisation de la politique proximale (PPO)
  • Soft Actor-Critic (SAC)

6. Travail avec des espaces d'action continus

  • Défis du contrôle continu
  • Utilisation de DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Outils et frameworks pratiques

  • Utilisation de Stable-Baselines3 et Ray RLlib
  • Journalisation et surveillance avec TensorBoard
  • Réglage des hyperparamètres pour les modèles DRL

8. Ingénierie des récompenses et conception d'environnement

  • Forme des récompenses et équilibrage des pénalités
  • Concepts de transfert d'apprentissage sim-to-real
  • Création d'environnements personnalisés dans Gymnasium

9. Environnements partiellement observables et généralisation

  • Gestion des informations d'état incomplètes (POMDP)
  • Approches basées sur la mémoire utilisant des LSTMs et des RNNs
  • Amélioration de la robustesse et de la généralisation de l'agent

10. Théorie des jeux et apprentissage par renforcement multi-agents

  • Introduction aux environnements multi-agents
  • Coopération vs compétition
  • Applications dans l'entraînement adversarial et l'optimisation des stratégies

11. Études de cas et applications réelles

  • Simulations de conduite autonome
  • Tarification dynamique et stratégies de trading financier
  • Robotique et automatisation industrielle

12. Dépannage et optimisation

  • Diagnostic de l'instabilité de l'entraînement
  • Gestion de la parcimonie des récompenses et du surajustement
  • Mise à l'échelle des modèles DRL sur des GPU et des systèmes distribués

13. Résumé et prochaines étapes

  • Rappel de l'architecture DRL et des algorithmes clés
  • Tendances industrielles et axes de recherche (par ex. RLHF, modèles hybrides)
  • Ressources supplémentaires et documents de lecture

Pré requis

  • Maîtrise de la programmation Python
  • Compréhension du calcul et de l'algèbre linéaire
  • Connaissances de base en probabilités et statistiques
  • Expérience dans la création de modèles d'apprentissage automatique utilisant Python et NumPy ou TensorFlow/PyTorch

Public cible

  • Développeurs intéressés par l'IA et les systèmes intelligents
  • Scientifiques des données explorant les frameworks d'apprentissage par renforcement
  • Ingénieurs en apprentissage automatique travaillant avec des systèmes autonomes
 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (3)

Cours à venir

Catégories Similaires