2017-2018
Le livre référence pour ce cours est "Reinforcement Learning" par Sutton et Barto (MIT Press)
Déroulement du cours et transparents
Séance 1: Processus décisionnels de Markov
(slides)
- Introduction Systèmes Multiagents
- Chaines de Markov avec récompense
- Processus décisionnels de Markov
- Algorithmes pour résoudre un PDM: "policy iteration" et "value iterarion"
Séance 2: Résoudre un PDM inconnu
- TD sur les PDMs (sujet)
- Cours: Apprentissage Monte Carlo (slides)
Séance 3: Résoudre un PDM inconnu
- Retour sur les deux dernières questions du TD.
- Cours: Méthodes différences temporelles (slides)
Séance 4: TP
Séance 5: Q-learning et approximation
(slides)
- Q-learning en approximant Q: Double Q-learning et
- Apprendre directement une politique: policy gradient et Reinforce
Séance 6: Apprentissage Multiagent
(slides)
- Théorie des jeux
- Le défi de l'apprentissage multiagent et quelques algorithmes
Séance 7-8: Simulation Multiagent
Cours de Juliette Rouchier
- Introduction à la simulation agent (slides)
- La co-évolution des hommes et de leur environnement : une vision interactionniste (slides)
- Zero-intelligence agents (slides)
- Rationalité (slides)
- chercher une représentation de l'apprentissage humain slides
- usage de la simulation pour l'aide à la décision slides
- bounded rationality et relative agreement slides
- un résumé des éléments essentiels du cours doc