Le livre référence pour ce cours est "Reinforcement Learning" par Sutton et Barto (MIT Press)
Déroulement du cours et transparents
Séance 1: Introduction et problème des bandits manchots
(slides)
- Introduction: apprentissage par renforcement
- Le problème des k-bandits manchots ou comment jouer aux machines à sous
- ε-greedy
- initialisation optimiste
- UCB
- bandit gradient
Séance 2: Processus décisionnels de Markov
(slides)
- Chaines de Markov avec récompenses
- Processus décisionnels de Markov
TD PDM
- Exercices de modélisation
(Une correction manuscripte de l'exercice sur la gestion de stock)
- TD sur les PDMs (sujet)
Séance 3: Résoudre un PDM inconnu
- Algorithmes pour résoudre un PDM: "policy iteration" et "value iterarion"
- Cours: Apprentissage Monte Carlo (slides)
Séance 4: Résoudre un PDM inconnu
- Retour sur les deux dernières questions du TD.
- Cours: Méthodes différences temporelles (slides)