Méthodes hybrides de planification et apprentissage pour la robotique hétérogène robuste – PARHéRo
Le projet PARHéRo: Méthodes hybrides de planification et apprentissage pour la robotique hétérogène robuste, vise explicitement d’incrémenter les synergies entre la recherche scientifique et industrielle pour anticiper et maîtriser l’évolution des plateformes robotisées hétérogènes dans des environnements complexes,inconnus et/ou hostiles. Le bon déroulement des missions est assuré par des plateformes avec un fort degré d’autonomie, un élément central pour leur robustesse qui est obtenu à travers l’apprentissage, la planification, et la supervision de la mise en oeuvre de comportements intelligents.
Le projet vise premièrement à doter les plateformes multi-robots autonomes d’un langage de spécification de missions pouvant à la fois permettre d’exprimer les objectifs et les exigences sur l’état des robots, que les caractéristiques du modèle de planification. Afin de mettre à l’épreuve le langage de spécification, le projet visera à générer des cas d’études cohérents avec les applications envisagées pour les futurs systèmes de défense et de sécurité.
Le langage de spécification de missions est aussi le moyen de partager dans la flotte de robots hétérogènes les résultats des apprentissages réalisés par chacun de ses éléments.
La décision autonome, ou même la planification interactive avec un humain supervisant le déroulement de la mission, vise à la résilience des plateformes face aux événements inattendus, dangereux ou imprévisibles de l’environnement. C’est dans ce contexte que l’utilisation de connaissances sur le domaine de planification– qu’elles soient acquises à priori ou à la volée en phase de réalisation de la mission – peut permettre une solution rapide et de meilleure qualité des problématiques affrontées. Cette hybridation entre la Planification Automatique en Intelligence Artificielle et le Machine Learning assure la robustesse, l’adaptabilité et la résilience de la flotte de robots hétérogènes, tous participant à un même objectif stratégique.
Le Machine Learning et la planification sont caractérisés par des approches complémentaires de la prise de décision.
Les techniques d’apprentissage (et notamment dans l’apprentissage par renforcement) s’appuient sur l’interaction avec le monde et l’expérience répétée, sans avoir besoin de connaissances préalables : cela permet aux robots de s’adapter de manière robuste à l’environnement, mais nécessite souvent une quantité infaisable d’expérience.
La planification permet aux robots d’effectuer différentes tâches dans le même domaine, sans avoir besoin d’acquérir des connaissances supplémentaires, mais dépend de la précision du modèle de planification. En outre, l’espace de recherche d’un planificateur avec une connaissance partielle de l'environnement peut grandir de manière exponentielle en le nombre d’états possible,ce qui rend le processus de planification impossible sur le plan pratique. Cependant, même une petite injection de connaissance apprise en amont sur le modèle peut grandement améliorer les performances de la recherche de solutions. Cette connaissance à priori, qui peut venir de phases d’apprentissage de comportements intelligents, permet l’affinement des méta-heuristiques ou des macro-actions ou encore les découpages hiérarchiques des tâches.
Les techniques d’apprentissage peuvent être aussi mises en œuvre pour améliorer les décisions prises par le groupe de robots, comme par exemple l’optimisation de la mission par rapport à des critères opposés. Que ce soient des stratégies de haut niveau, ou des composantes purement réactives, la coordination d’une flotte de robots autonomes mobiles passe par la transmission de l’information apprise par chaque robot sur la base d’informations locales, à condition que les conditions de robustesse du réseau de communication soient maintenues. Dans le cas contraire, l’estimation par chaque robot de la situation globale est nécessaire pour garantir l’autonomie de la flotte de robots, et la robustesse de la mission.
Coordination du projet
Alexandre Albore (ONERA CENTRE DE TOULOUSE)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
LaBRI Laboratoire Bordelais de Recherche en Informatique
SAFRAN ELECTRONICS & DEFENSE SAFRAN ELECTRONICS & DEFENSE
DTIS - Département Traitement de l'Information et Systèmes ONERA CENTRE DE TOULOUSE
Aide de l'ANR 244 484 euros
Début et durée du projet scientifique :
- 36 Mois