CE25 - Sciences et génie du logiciel - Réseaux de communication multi-usages, infrastructures de hautes performances

Planification et Apprentissage Efficaces pour le Partage de Ressources – EPLER

Résumé de soumission

Les processus de décision Markoviens (MDP) et leurs équivalents dans l'apprentissage par renforcement ont connu un grand succès au cours des deux dernières décennies. Cependant, ces succès reposent souvent sur des ressources computationnelles assez exceptionnelles et ne peuvent être appliqués dans de nombreux contextes où, par exemple, le volume de données disponibles ou la puissance de calcul sont plus restreints. Pour définir la prochaine génération d'algorithmes plus « démocratiques » et largement applicables, ces méthodes doivent encore faire face à des problématiques d'exploration très exigeantes. EPLER propose de contourner ce problème en utilisant les structures sous-jacentes présentes dans de nombreux MDP. Nous nous concentrerons en particulier sur les problèmes dits de bandit multi-bras (“rested” et “restless”), qui fournissent un cadre d'optimisation puissant pour modéliser les problèmes d'ordonnancement et de partage des ressources. La théorie montre que les politiques d'indices, faciles à implémenter sont optimales ou quasi-optimales. Un premier défi sera de caractériser les garanties de performance pour les bandits “restless” et d'aborder le cas des bandits corrélés. D'autre part, nous tirerons parti des structures de politiques optimales pour améliorer de manière significative à la fois l'exploration et l'exploitation dans le cadre d’apprentissage par renforcement et nous définirons des algorithmes d’exploration basés sur des systèmes de particules pour attaquer des cas d’usage avec récompenses rares.

Matthieu Jonckheere (Laboratoire d'analyse et d'architecture des systèmes)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LAAS-CNRS Laboratoire d'analyse et d'architecture des systèmes
IRIT Institut National Polytechnique Toulouse

Aide de l'ANR 458 427 euros
Début et durée du projet scientifique : octobre 2022 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.