Convergence de Dynamiques de Jeux à Somme Nulle – CONVERGENCE
Dans un jeu à somme nulle, deux joueurs choisissent simultanément une stratégie, et reçoivent des paiements opposés. Sous des hypothèses standards, le théorème du minmax implique que le jeu a une valeur et des stratégies optimales, qui représentent l'issue du jeu joué par des joueurs rationnels. Les dynamiques de jeu à somme nulle ont motivé une littérature vaste en Mathématiques et Informatique, notamment à travers le modèle fondateur de jeu stochastique (Shapley, 1953). Il consiste en la répétition d'un jeu dépendant d'une variable appelée état. Cet état évolue au cours du temps suivant une dynamique stochastique, influencée par les actions des joueurs. L'étude des propriétés en temps long de ce modèle et de ses extensions ont mis en lumière des problèmes mathématiques riches dans des domaines aussi divers que les Probabilités, l'Analyse Convexe, la Topologie ou encore la Géométrie Algébrique. Récemment, ils ont également permis de résoudre des problèmes importants en Equations aux Dérivées Partielles. Le développement de l'Apprentissage Automatique a de plus inspiré de nouvelles directions de recherche et applications des jeux à somme nulle au cours de la dernière décennie (GANs, Poker, Go), concernant notamment le calcul de la valeur et des stratégies optimales, où les procédures dynamiques s'avèrent très efficaces.
Ce projet poursuit trois objectifs:
(1) Décrire le comportement en temps long des jeux stochastiques à somme nulle, à travers les conjectures de Mertens, et étudier ses applications au problème d'EDP de l'homogénéisation stochastique des équations de Hamilton-Jacobi,
(2) Etudier la calculabilité et les procédures d'apprentissage en ligne dans les jeux stochastiques en temps long,
(3) Construire des procédures qui convergent rapidement vers la valeur et des stratégies optimales d'un jeu à somme nulle fixé.
La réalisation de ces trois objectifs permettra d'apporter des contributions importantes dans des sujets majeurs à l'interface entre Théorie des Jeux, EDP, Apprentissage et Optimisation, et de construire de nouvelles passerelles entre ces domaines.
Coordination du projet
BRUNO ZILIOTTO (Centre de recherches en mathématiques de la décision)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
CEREMADE Centre de recherches en mathématiques de la décision
Aide de l'ANR 164 640 euros
Début et durée du projet scientifique :
December 2021
- 48 Mois