On a étudié des algorithmes, surtout basés sur l'apprentissage par renforcement, pour apprende en intéragissant avec l'environnement. Pour l'apprentissage, on a souvent fait l'hypothèse que l'agent était seul et que l'environnement était stationnaire. Apprendre dans un cadre multi-agent est plus difficile car chque agent va essayer de s'adapter aux changements des autres agents. Pour ce qui est de l'exploration, elle risque de ne pas être coordonnée, ce qui va rendre la chose également plus difficile. Evidemment, un agent intelligent et autonome devrait idéalement apprendre dans n'importe quelle situation.
On peut donc s'interroger sur comment développer des algorithmes d'apprentissage multiagent: comment comparer les approches, comment les évaluer, est-ce que l'approche est spéacialisée sur un type de tâches ou plutôt général, etc... Pour aider les chercheurs à répondre à ces questions DeepMind a mis en place une plateforme nommée Melting Pot (plus de détail sur leur page github) pour évaluer les algorithmes d'apprentissage multiagent par renforcement.
Votre tâche est de choisir un des scénarios de la suite Melting pot et d'écrire un rapport à ce sujet. Placez-vous dans la situation ou vous devez écrire une proposition de sujet de recherche (comme si vous proposiez un sujet de thèse ou vous répondiez à un appel d'offre). Vous devrez exposer votre problématique de recherche, et justifier comment, ici à l'aide du scenario, vous allez pouvoir évaluer comment vous répondrez à votre problématique. Si vous avez déjà des pistes pour commencer le travail, vous pouvez les exposer. Vous pouvez aussi décrire les limitations de votre étude (par exemple si le scenario vous permet d'étudier seulement une facette de votre problématique et que vous aurez besoin d'autres scenarios, ou d'autres choses pour répondre à votre problématique).