Apprentissage et raisonnement pour la décision optimale selon des informations numériques et symboliques – LARDONS
Permettre à des agents artificiels d'apprendre et d'agir à partir de tout type d'informations
Le projet vise à concevoir des modèles et méthodes innovantes et fondamentales pour permettre à des agents autonomes (robots mobiles, assistants logiciels personnels, etc.) d'apprendre et d'agir en utilisant tous types d'informations. Nous visons particulièrement : les informations numériques, comme des statistiques ou des probabilités modélisant les effecteurs et les capteurs, et les informations symboliques, comme les normes, obligations, contraintes, etc. typiquement fournies par l'humain.
Faciliter l'interaction entre l'homme et des agents artificiel
Les objectifs du projet sont de nature fondamentale. Il s'agit de fournir de méthodes faisant le pont entre des lignées de travaux qui ont considéré, pour les uns, les aspects probabilistes des problèmes de décision, et pour les autres les aspects symboliques.<br />Les enjeux de tels méthodes se retrouvent dans des domaines tels que la robotique de service ou l'exploration spatiale.<br /><br />Dans le premier type d'application, en domotique par exemple, il s'agit de permettre à l'utilisateur d'interagir avec des robots de façon naturelle (symbolique), par exemple en spécifiant des préférences quantitatives: «je préfère que mon aspirateur automatique commence par le rez-de-chaussée avant l'étage«, tout en conservant le raisonnement dans l'incertain, probabiliste, pour la planification des robots (incertitude sur le temps que prendra la tâche, par exemple).<br /><br />Dans le second type d'application, les enjeux sont de permettre une spécification symbolique de comportements qui seront ensuite exécutés en environnement incertain. Ces enjeux sont cruciaux dans des applications d'exploration spatiale par des engins autonomes, ou dans des applications militaires, car les comportements des engins autonomes doivent systématiquement être vérifiés et validés par des experts humains. L'expression symbolique, naturelle pour les experts, de ces comportements est de fait un enjeu majeur.
Le projet aborde ses objectifs avec une approche de modélisation et d'algorithmique. Nous cherchons avant tout des modèles formels permettant de prendre en compte tous les aspects des problèmes traités : incertain, connaissances symboliques, objectifs des agents, etc. Nous proposons des algorithmes pour les problèmes de décision, d'apprentissage et de raisonnement dans de tels modèles.
Les algorithmes recherchés doivent être efficaces, tels qu'évalués par la théorie, mais également en pratique, tels qu'évalués par des expérimentations.
Une application concrète, à un problème de cartographie spatiale d'espèces adventices dans des parcelles cultivées, est également mise en oeuvre dans le cadre du projet. Cette application offre un terrain d'expérimentation pour les méthodes comme pour l'adéquation des modèles à un problème réel.
Nous avons proposé un nouveau langage de représentation des plans d'actions (à suivre par un agent exécutant une tâche). Dans cette représentation, les connaissances de l'agent à un moment donné sont explicitées, ce qui rend les plans à la fois plus compacts et plus lisibles. La lisibilité facilite la vérification et la validation de tels plans par l'être humain, et la compacité facilite, par exemple, l'envoi de tels plans à un satellite depuis une base située sur Terre.
Nous avons également proposé des modèles et approches pour les problèmes de décision dans l'incertain, lorsque les récompenses (renforcements) accessibles sont de nature qualitative (ordinale). Nous permettons ainsi, par exemple à un utilisateur humain, de «punir« ou de «récompenser« un agent à son service de manière qualitative plutôt que par une note, dont l'échelle est toujours délicate à interpréter. On peut ainsi envisager un système automatisé d'aide au diagnostic médical apprenant à mieux diagnostiquer à partir de retours des médecins tels que «ce diagnostic était bon«, «ce diagnostic était moins bon que le précédent«, etc.
Nous projetons d'étendre la représentation de plans à base de connaissances à des politiques d'actions de systèmes multi-agents, donc à des politiques décentralisées. Les enjeux sont importants lorsque, par exemple, des unités d'engins autonomes, plutôt que des engins isolés, sont concernés par une mission.
Nous souhaitons également utiliser les résultats obtenus pour l'apprentissage à partir de renforcements qualitatifs sur une application concrète, à l'amélioration d'un processus automatisé d'extraction d'information, dans le cadre d'une thèse CIFRE.
Une librairie Java fournissant les méthodes et algorithmes développés dans le projet est actuellement en cours de développement. L'objectif est également d'intégrer à cette librairie un vaste ensemble de techniques standard de l'intelligence artificielle et de la diffuser sous licence libre, afin de permettre l'utilisation, au sein de la communauté scientifique, mais aussi dans des projets industriels, des techniques et des outils.
A l'international, le projet a donné lieu à des publications scientifiques dans des conférences et revues importantes :
* 5 publications multipartenaires en conférences internationales, dont 2 de rang A et 2 de rang A* (classement australien CORE)
* 2 publications dans des journaux internationaux de rang A
* 7 publications dans des conférences internationales (4 de rang A*, 2 de rang A, dont 2 avec des partenaires extérieurs au projet)
* 4 publications dans des ateliers internationaux
Ce projet s'intéresse à la prise de décision pour des agents autonomes munis de connaissances. Dans les applications, de tels agents doivent relever de nombreux défis pour prendre des décisions optimales : l'environnement est typiquement dynamique, incertain, et partiellement observable ; il est décrit sur un très grand nombre d'attributs ; la décision doit être très rapide.
Pour traiter ces problèmes, la communauté d'intelligence artificielle a développé des approches complémentaires, en particulier des formalismes symboliques (logiques) et numériques. Les formalismes numériques (notamment les réseaux de Markov, les réseaux bayésiens, les processus décisionnels de Markov et leurs dérivés) sont adaptés pour représenter les effets stochastiques des actions et l'évolution stochastique de l'environnement ; de plus, ils peuvent être appris et résolus avec diverses techniques. D'autre part, les formalismes logiques (p.ex. attribut-valeur, relationnels, épistémiques) sont adaptés pour exprimer des contraintes dures, des normes, des connaissances épistémiques, des buts, etc. En particulier, la logique est par essence plus déclarative, et ainsi plus facile à manipuler pour l'être humain. A nouveau, il existe diverses techniques pour apprendre et raisonner avec ces formalismes.
Notre proposition part du constat qu'un agent placé dans un environnement réel a typiquement accès à de l'information via des modèles numériques, et à de l'information sous forme logique. La rationalité demande alors naturellement que ses décisions prennent toute cette information en compte. Typiquement, un robot footballeur a besoin d'un modèle numérique de ses effecteurs (obtenu par simulation ou entraînement), mais aussi d'un modèle logique des règles du jeu. Une autre situation typique est en médecine, où il faut à la fois des estimations numériques de l'efficacité des traitements ou de l'incertitude des analyses, et un savoir expert logique.
Le problème que nous étudierons peut donc être formulé ainsi : construire des approches pour prendre des décisions rationnelles lorsqu'une partie de l'information sur l'environnement, les actions et les récompenses est donnée sous forme numérique, et une autre partie sous forme logique.
Une approche complète doit prendre en compte au moins les trois sous-problèmes suivants: la représentation du problème ; le calcul d'une politique optimale ; l'apprentissage par renforcement.
Nous attaquerons ces problèmes selon l'angle de la complexité et de l'algorithmique, en identifiant la complexité des problèmes, en exhibant des restrictions traitables et en élaborant des algorithmes efficaces (en complexité et en pratique). Ceci est justifié par le fait que la plupart des problèmes sont déjà prouvés difficiles (au sens de la complexité), même lorsque les informations numériques et logiques ne sont pas considérées en même temps (par exemple, dans les processus décisionnels de Markov partiellement observables – POMDP). Nous nous appuierons pour cela sur des représentations factorisées existantes pour les (PO)MDP, en particulier celles par réseaux bayésiens dynamiques et par opérateurs STRIPS probabilistes, qui sont basées sur des attributs propositionnels. Cet accent sur la logique propositionnelle plutôt que des formalismes relationnels plus expressifs assure la décidabilité de la plupart des problèmes, des complexités raisonnables, et la possibilité de réutiliser des logiciels très efficaces, par exemple pour le problème de satisfaisabilité.
Les représentations et algorithmes proposés seront illustrés sur deux applications à grande échelle. La première est la construction de cartes d'occurrence de processus spatiaux, les décisions à prendre étant les lieux à visiter pour récupérer des informations sur l'occurrence du processus. Une application réelle est étudiée à l'Inra, sur la prolifération des mauvaises herbes. La seconde application concerne les personnages non-joueurs dans les jeux video.
Coordinateur du projet
Monsieur Zanuttini Bruno (UNIVERSITE DE CAEN - BASSE-NORMANDIE) – bruno.zanuttini@unicaen.fr
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
LAMSADE UNIVERSITE PARIS IX [DAUPHINE]
INRA INRA -CENTRE DE RECHERCHE DE TOULOUSE
GREYC UNIVERSITE DE CAEN - BASSE-NORMANDIE
LIP6 UNIVERSITE PARIS VI [PIERRE ET MARIE CURIE]
Aide de l'ANR 303 499 euros
Début et durée du projet scientifique :
- 48 Mois