Représentation multimédia d’entités et systèmes de question réponse – MEERQAT
Le projet aborde le problème des ambiguïtés des contenus visuels et textuels et vise à les résoudre en apprenant des représentations adaptées et en les combinant de manière appropriée. A cette fin, nous définissons une nouvelle tâche scientifique que nous nommons « système de question-réponse
multimédia » qui a la particularité de nécessiter la prise en compte de trois sources d'information pour être résolue. La tâche consiste à répondre à une question (textuelle) ayant un rapport avec un contenu visuel (pouvant être la réponse à la question ou un indice déterminant pour la trouver) en s'appuyant sur le contenu d'une base de connaissances externe, composée de millions d'entités uniques. Chacune de ces entités est elle-même associée à des contenus textuels et visuels et est reliée à d'autres entités au sein de la base. En pratique, notre intérêt portera sur quatre types d'entités: les personnes, les objets manufacturés, les lieux géographiques remarquables et les organisations (entreprises, ONG, organisations inter-gouvernementales...). D'un point de vue technique, notre but est de fusionner les trois sources d'information le plus précocement possible, idéalement dans un espace de représentation commun. Différentes stratégies sont proposées pour fabriquer un tel espace, avec une progression croissante d'intégration. Au sein d'un tel espace, le projet s'intéresse à la manière de représenter une entité particulière afin de faciliter son rapprochement avec les entités pertinentes pour répondre à une « question multimédia ». Cela nécessitera des travaux spécifiques sur chaque modalité ainsi que sur leur combinaison deux à deux, l'étude des sources d'informations à prendre en compte selon le type des entités, des travaux sur la représentation d'une entité particulière au sein de l'espace commun ainsi que la définition d'une typologie des « questions multimédia » possibles. Bien que la recherche envisagée soit relativement amont, des applications pratiques peuvent rapidement en être dérivées dans les domaines de la veille et du marketing (veille des réseaux sociaux), du tourisme et de la valorisation du patrimoine ou encore de la sécurité et de la défense. Une issue positive du projet fournirait des perspectives pour mettre en place des agents conversationnels performants. Au cours du projet, les retombées directes seront néanmoins principalement académiques, avec des publications scientifiques et le matériel afférent pour reproduire les résultats, ainsi que l'organisation d'une campagne d'évaluation sur la nouvelle tâche définie, incluant la mise à disposition d'un nouveau corpus de données et des méthodes d'évaluation correspondantes, le tout disponible publiquement.
Coordination du projet
Hervé LE BORGNE (Laboratoire d'Intégration des Systèmes et des Technologies)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
LIST Laboratoire d'Intégration des Systèmes et des Technologies
IRIT Institut de Recherche en Informatique de Toulouse
Inria Rennes Bretagne - Atlantique Centre de Recherche Inria Rennes - Bretagne Atlantique
LIMSI Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur
Aide de l'ANR 674 270 euros
Début et durée du projet scientifique :
mars 2020
- 42 Mois