Statistique Semi-Paramétrique pour l'Allocation Dynamique de Ressources et l'Optimisation – SPADRO
Un agent, plongé à chaque instant dans un certain contexte, et qui doit choisir séquentiellement une suite d'actions qui influera sur ses observations, fait face à un problème d'allocation dynamique de ressources. Il s'agit, pour de tels cas, de concevoir et d'analyser des règles de décision dynamiques, appelées politiques, en utilisant les observations passées pour optimiser ses choix futurs. Une bonne politique doit réaliser un savant équilibre entre l'exploitation des actions qui se sont révélées payantes par le passé et l'exploration de nouvelles possibilités qui pourraient s'avérer encore meilleures. Initialement motivés essentiellement par la thématique des essais cliniques, de tels problèmes interviennent désormais dans de nombreux autres domaines industriels, les technologies de l'information en ayant multiplié les opportunités.
L'étude mathématique de ces problèmes dits "de bandits" (en référence à la situation paradigmatique d'un joueur faisant face à une lignée de machines à sous et cherchant sur laquelle tenter sa chance afin de maximiser ses gains) remonte à l'article pionnier de Thompson (1930). De nombreux travaux ont suivi, notamment dans le champ de l'apprentissage statistique. Dans cette littérature, de nombreux problèmes tant théoriques que computationnels sont abordés, en combinant théorie des probabilités et optimisation convexe. La communauté statistique a également contribué, notamment sous la dénomination d'"inférence séquentielle". Ces travaux ont particulièrement insisté sur
l'approche asymptotique du problème.
La statistique semi-paramétrique, par ailleurs, a été un thème de recherche très actif au cours des quinze dernières années. Cet intérêt encore croissant ne s'explique pas seulement par une complexité théorique fascinante: d'importantes avancées conceptuelles, accompagnées de progrès algorithmiques décisifs et de l'apparition de ressources informatiques massives, ont en effet permis leur application dans un grand nombre de situations et de champs scientifiques. Les résultats des approches semi-paramétriques ne cessant de se montrer convaincants, le nombre de questions théoriques à la fois générales et spécifiques ne cesse d'augmenter, en même temps que les défis algorithmiques pour les mettre en oeuvre.
Récemment, dans la littérature de l'apprentissage statistique, de nouvelles politiques pour l'allocation dynamique de ressources ont été proposées qui, pour dépasser les précédentes, utilisaient de telles procédures d'estimation - de sorte que de nouveaux progrès pour certains problèmes de bandits semblent conditionnés à la résolution de problèmes théoriques de statistique semi-paramétrique. Symétriquement, le champ d'application des algorithmes de bandits s'est tellement étendu que la communauté statistique, et notamment biostatistique, a tout intérêt à étudier de près quels plans d'expériences dynamiques en essais cliniques ils permettent d'envisager.
Ce projet, appelé SPADRO, entend proposer de nouvelles méthodes et de nouvelles analyses pour les problèmes d'allocation dynamique de ressources, en provoquant un brassage fécond de la théorie de l'apprentissage avec la statistique semi-paramétrique.
Coordination du projet
Aurélien GARIVIER (INSTITUT DE MATHEMATIQUES DE TOULOUSE)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
IMT INSTITUT DE MATHEMATIQUES DE TOULOUSE
MODAL'X Modélisation aléatoire de Paris Ouest Nanterre La Défense
Aide de l'ANR 122 000 euros
Début et durée du projet scientifique :
janvier 2014
- 42 Mois