Planification et Apprentissage Efficaces pour le Partage de Ressources – EPLER
Les processus de décision Markoviens (MDP) et leurs équivalents dans l'apprentissage par renforcement ont connu un grand succès au cours des deux dernières décennies. Cependant, ces succès reposent souvent sur des ressources computationnelles assez exceptionnelles et ne peuvent être appliqués dans de nombreux contextes où, par exemple, le volume de données disponibles ou la puissance de calcul sont plus restreints. Pour définir la prochaine génération d'algorithmes plus « démocratiques » et largement applicables, ces méthodes doivent encore faire face à des problématiques d'exploration très exigeantes. EPLER propose de contourner ce problème en utilisant les structures sous-jacentes présentes dans de nombreux MDP. Nous nous concentrerons en particulier sur les problèmes dits de bandit multi-bras (“rested” et “restless”), qui fournissent un cadre d'optimisation puissant pour modéliser les problèmes d'ordonnancement et de partage des ressources. La théorie montre que les politiques d'indices, faciles à implémenter sont optimales ou quasi-optimales. Un premier défi sera de caractériser les garanties de performance pour les bandits “restless” et d'aborder le cas des bandits corrélés. D'autre part, nous tirerons parti des structures de politiques optimales pour améliorer de manière significative à la fois l'exploration et l'exploitation dans le cadre d’apprentissage par renforcement et nous définirons des algorithmes d’exploration basés sur des systèmes de particules pour attaquer des cas d’usage avec récompenses rares.
Coordination du projet
Matthieu Jonckheere (Laboratoire d'analyse et d'architecture des systèmes)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
LAAS-CNRS Laboratoire d'analyse et d'architecture des systèmes
IRIT Institut National Polytechnique Toulouse
Aide de l'ANR 458 427 euros
Début et durée du projet scientifique :
octobre 2022
- 48 Mois