DS0702 - 2016

BANDITS MANCHOTS POUR SIGNAUX NON-STATIONNAIRES ET STRUCTURES – BADASS

Résumé de soumission

Concevoir des procédures d’interaction optimales avec des systèmes dynamiques complexes peut impacter significativement nos sociétés, à tous les niveaux où la gestion des ressources naturelles, énergétiques, humaines ou computationnelles est en jeu.
Dans le cadre de l'apprentissage par renforcement (RL), notre objectif est d'apprendre automatiquement de telles procédures à partir d'observations partielles et potentiellement bruitées d'interactions avec le système. Le dilemme exploration-exploitation, aspect central du problème, est capturé par le modèle de bandit à plusieurs bras (MAB), dont les avancées récentes ont mené à des applications clés de l'allocation séquentielle de ressources. Un MAB étant la brique de base des Processus Décisionnels de Markov (MDP), notre étude poussée de variantes non-stationnaires de ce modèle impactera tout le domaine du RL.

De nombreuses applications récentes nécessitent le développement de stratégies de décision séquentielle dans un environnement non stationnaire (évolution de la demande dans les smart-grids, du goût des utilisateurs d'un système de recommandation). Ce projet développera l'utilisation des modèles de bandits en proposant un nouveau cadre théorique permettant la prise en compte des observations non stationnaires, tout en conservant l'optimalité. Un processus non-stationnaire pouvant être décomposé en plusieurs processus localement stationnaires, possiblement associés à des variables cachées (état), une manière de gérer la non-stationnarité consiste à exploiter la structure sous-jacente du problème. Ainsi, les MDP (ou MDP partiellement observables) sont aussi des cas particuliers de MAB étendus dont les bras sont des processus non-stationnaires. Il est donc crucial de traiter conjointement non-stationnarité et structure des données.

Pour répondre à ces deux défis en mettant l'accent sur l'obtention de garanties théoriques, nous considérons trois objectifs:
1. Avancer l’obtention de stratégies optimales dans un MAB stationnaire : Les approches existantes ne sont optimales que dans des cas particuliers où la classe de la distribution des bras (structure) est connue, et utilisent cette connaissance, alors que des heuristiques récentes, adaptatives à cette classe, restent à analyser.
2. Analyser la prédiction séquentielle (bandit à un bras) d'un signal non-stationnaire, via la construction de régions de confiance adaptatives : les approches traditionnelles (« worst-case ») sont trop conservatives et non adaptatives au signal.
3. Incorporer les méthodes spectrales et techniques de complétion de matrices de faible rang dans le contexte du RL, pour l'étude de modèles structurés, comme les MAB contextuels et « Predictive State Representations », ou des heuristiques prometteuses manquant de garanties théoriques.

Ce projet verra le développement d'une nouvelle génération de stratégies prenant en compte structure et non-stationnarité des observations, évaluées empiriquement et validées par des garanties théoriques rigoureuses. Au-delà de l'avance significative de la littérature des MAB et du RL, ce projet aura aussi un fort impact en terme d'applications sociétales (médecine personnalisée, e-learning, computational sustainability) et industrielles (objets connectés, robotique, gestion de réseaux ...), en levant les verrous techniques à l’émergence des applications sociétales de demain. Ce programme ambitieux nécessite une forte expertise dans la théorie des MAB, en particulier des techniques liées au contrôle du regret, comme la concentration de la mesure, mais également une bonne connaissance des nombreux outils liés à la sélection de modèle, l'agrégation et la prédiction universelle, les MDP et les méthodes spectrales. L’équipe possède ces compétences, et le cadre du projet JCJC permettra de les mettre en commun et développer une activité scientifique riche autour de ces thématiques, avec notamment des chercheurs invités, l'organisation de séminaires, workshops et d'un tutoriel.

Odalric-Ambrym Maillard (Inria Lille - Nord Europe / Equipe SEQUEL)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Inria Inria Lille - Nord Europe / Equipe SEQUEL

Aide de l'ANR 181 029 euros
Début et durée du projet scientifique : octobre 2016 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.