Une algorithmie numériquement efficace pour atteindre une convergence super-linéaire en apprentissage par renforcement pour des systèmes contraints – NERL
L'apprentissage par renforcement permet des résultats remarquables dans de nombreux domaines (des jeux à la robotique). Mais son déploiement sur des applications réalistes reste difficile, en particulier quand des systèmes physiques sont impliqués. Ces systèmes sont connus pour leurs multiples difficultés (grande dimension, instabilité, modes hybrides discrets/continus) qui posent des problèmes aux algorithmes d'apprentissage pour explorer, stabiliser, généraliser et garantir que le contrôle obtenu respecte les contraintes de fonctionnement. À l'inverse, des méthodes de contrôle spécifiques à chaque domaine excellent à résoudre ces problèmes, en s'appuyant sur l'optimisation numérique pour obtenir les performances et les garanties attendues. Mais ces approches ne savent pas capitaliser sur l'expérience passée, ce qui les limite intrinsèquement à des comportements locaux impliquant un recalcul intense et fréquent. Les complémentarités entre ces deux approches sont évidentes. Le fil conducteur de ce projet est d'établir une méthodologie originale pour un apprentissage par renforcement qui s'appuierait plus solidement sur le cadre de l'optimisation numérique, de manière à permettre un apprentissage plus efficace et avec garanties, pour des systèmes physiques avec des modes hybrides. Le projet sera conduit par une équipe franco-américaine, nourrie d'expériences communes fructueuses et contribuant à part égale au travail et aux perspectives. La coordination sera assurée par des co-supervisions d'étudiants, des échanges transatlantiques et le partage d'une architecture logicielle.
Mérite intellectuel. La contribution que nous proposons repose sur la construction d'un cadre méthodologique original pour un apprentissage par renforcement numériquement efficace. The projet s'organise en deux objectifs principaux : 1) la construction d'une optimisation de politique exploitant les dérivées du système dynamique et garantissant la satisfaction de contraintes, et 2) la construction d'algorithmes gérant les modes hybrides continus/discrets exploitant des simulateurs différentiables hautes-fidélités et des arbres de décisions. Le projet ambitionne de proposer un éclairage original de l'apprentissage par renforcement et du contrôle optimal, qui partagent des racines profondes mais ne proposent pas de méthodes unies. Nous démontrons la généricité de l'approche par une évaluation expérimentale sur des problèmes de complexité incrémentale dans 4 domaines d'applications : kites (cerfs-volants) énergétiques, robots avec bras et jambes, avatars musculosquelettiques et design moléculaire.
Impact. Le travail contribuera aux domaines de l'apprentissage par renforcement et du contrôle optimal, et établira des synergies entre les deux. Il bénéficiera ainsi aux nombreux domaines où l'apprentissage par renforcement peut être appliqué, en particulier pour des systèmes physiques de grande dimension avec des modes hybrides. Le travail sera publié en source ouverte (open-source) avec un effort pour promouvoir un cadre méthodologique partagé, ouvert et permettant une reproduction transparente des résultats obtenus. Nous mettrons en place des échanges d'étudiants aux niveaux master et doctorat. Des activités éducatives pour les élèves plus jeunes (primaires et collèges) seront mises en place notamment avec des challenges internationaux de programmation de robots.
Mot-clé: apprentissage par renforcement; contrôle prédictif; optimisation de politique
Coordination du projet
Nicolas Mansard (Laboratoire d'analyse et d'architecture des systèmes)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
NYU New-York University
LAAS-CNRS Laboratoire d'analyse et d'architecture des systèmes
Aide de l'ANR 208 711 euros
Début et durée du projet scientifique :
octobre 2023
- 36 Mois