Apprentissage par renforcement

Le livre référence pour ce cours est Reinforcement Learning par Richard S. Sutton et Andrew G. Barto (MIT Press) seconde édition, 2018.

Déroulement du cours et transparents

  1. (séances 1,2,3) présentation du problème d'apprentissage par renforcement et processus décisionnel markovien (séances 1-3)
  2. (séances 4,5,6) résolution avec des modèles tabulaires
  3. (séances 7,8) résolution avec des modèles approximés
Séance 1: Introduction et problème des bandits manchots (slides)

Bonus: notes sur le gradient bandits (en suivant Sutton et Barto pp 38-40)

Code: implémentez le protocole de tests décrit dans les transparents (10-bandit problem) et testez les algorithmes ci-dessus. Retrouvez les graphes similaires.

Code Bonus:Vous pouvez maintenant tester quelques cas supplémentaires

Séance 2: Processus décisionnels de Markov (slides)
Bonus: quelques démonstrations sur les MDP

Séance 3: Processus décisionnels de Markov et résolution
CodeImplémentez les algorithmes Itération sur les valeurs et Itération sur les politiques sur l'exemple du cours (notebook jupyter à télécharger)

Séance 4: Résoudre un PDM inconnu avec les méthodes de Monte Carlo (slides)
Code: Implémentez un algorithme de Monte Carlo pour jouer à black jack (notebook jupyter à télécharger)
Séance 5: Résoudre un PDM inconnu avec les méthodes de différences temporelles (slides)
Code: Implémentez SARSA et Q-learning sur Frozen Lake (notebook jupyter à télécharger)


Séance 6: RL et approximation(slides)