Apprentissage par renforcement -- Master 2 ISI, Université Paris-Dauphine

Le livre référence pour ce cours est "Reinforcement Learning" par Sutton et Barto (MIT Press)

Déroulement du cours et transparents

Séance 1: Introduction et problème des bandits manchots (slides)

Séance 2: Processus décisionnels de Markov (slides)

TD PDM

Exercices de modélisation (Une correction manuscripte de l'exercice sur la gestion de stock)
TD sur les PDMs (sujet)

Séance 3: Résoudre un PDM inconnu

Séance 4: Résoudre un PDM inconnu