Plan du cours
1. Introduction à l'apprentissage par renforcement profond
- Qu'est-ce que l'apprentissage par renforcement ?
- Différences entre l'apprentissage supervisé, non supervisé et par renforcement
- Applications du DRL en 2025 (robotique, santé, finance, logistique)
- Compréhension de la boucle d'interaction agent-environnement
2. Fondamentaux de l'apprentissage par renforcement
- Processus de décision de Markov (MDP)
- État, action, récompense, politique et fonctions de valeur
- Compromis exploration vs exploitation
- Méthodes de Monte Carlo et apprentissage par différence temporelle (TD)
3. Implémentation d'algorithmes RL de base
- Méthodes tabulaires : programmation dynamique, évaluation et itération de politique
- Q-Learning et SARSA
- Exploration epsilon-greedy et stratégies de décroissance
- Implémentation d'environnements RL avec OpenAI Gymnasium
4. Transition vers l'apprentissage par renforcement profond
- Limitations des méthodes tabulaires
- Utilisation des réseaux neuronaux pour l'approximation de fonctions
- Architecture et flux de travail des Deep Q-Networks (DQN)
- Rejoue d'expériences et réseaux cibles
5. Algorithmes DRL avancés
- Double DQN, Dueling DQN et Rejoue d'expériences prioritaire
- Méthodes de gradients de politique : algorithme REINFORCE
- Architectures Actor-Critic (A2C, A3C)
- Optimisation de la politique proximale (PPO)
- Soft Actor-Critic (SAC)
6. Travail avec des espaces d'action continus
- Défis du contrôle continu
- Utilisation de DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Outils et frameworks pratiques
- Utilisation de Stable-Baselines3 et Ray RLlib
- Journalisation et surveillance avec TensorBoard
- Réglage des hyperparamètres pour les modèles DRL
8. Ingénierie des récompenses et conception d'environnement
- Forme des récompenses et équilibrage des pénalités
- Concepts de transfert d'apprentissage sim-to-real
- Création d'environnements personnalisés dans Gymnasium
9. Environnements partiellement observables et généralisation
- Gestion des informations d'état incomplètes (POMDP)
- Approches basées sur la mémoire utilisant des LSTMs et des RNNs
- Amélioration de la robustesse et de la généralisation de l'agent
10. Théorie des jeux et apprentissage par renforcement multi-agents
- Introduction aux environnements multi-agents
- Coopération vs compétition
- Applications dans l'entraînement adversarial et l'optimisation des stratégies
11. Études de cas et applications réelles
- Simulations de conduite autonome
- Tarification dynamique et stratégies de trading financier
- Robotique et automatisation industrielle
12. Dépannage et optimisation
- Diagnostic de l'instabilité de l'entraînement
- Gestion de la parcimonie des récompenses et du surajustement
- Mise à l'échelle des modèles DRL sur des GPU et des systèmes distribués
13. Résumé et prochaines étapes
- Rappel de l'architecture DRL et des algorithmes clés
- Tendances industrielles et axes de recherche (par ex. RLHF, modèles hybrides)
- Ressources supplémentaires et documents de lecture
Pré requis
- Maîtrise de la programmation Python
- Compréhension du calcul et de l'algèbre linéaire
- Connaissances de base en probabilités et statistiques
- Expérience dans la création de modèles d'apprentissage automatique utilisant Python et NumPy ou TensorFlow/PyTorch
Public cible
- Développeurs intéressés par l'IA et les systèmes intelligents
- Scientifiques des données explorant les frameworks d'apprentissage par renforcement
- Ingénieurs en apprentissage automatique travaillant avec des systèmes autonomes
Nos clients témoignent (3)
J'ai vraiment aimé la fin où nous avons pris le temps de jouer avec CHAT GPT. La salle n'était pas très bien organisée pour cela - au lieu d'une grande table, quelques petites tables auraient été préférables afin que nous puissions travailler en petits groupes et brainstormer.
Nola - Laramie County Community College
Formation - Artificial Intelligence (AI) Overview
Traduction automatique
Travailler à partir des principes fondamentaux de manière concentrée, puis passer à l'application d'études de cas le même jour
Maggie Webb - Department of Jobs, Regions, and Precincts
Formation - Artificial Neural Networks, Machine Learning, Deep Thinking
Traduction automatique
Qu'il utilisait des données réelles d'entreprise. Le formateur avait une très bonne approche en faisant participer et concourir les stagiaires
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
Formation - Applied AI from Scratch in Python
Traduction automatique