RNTL - Réseau National en Technologies Logicielles

Typologies et grammaires de textes afin de rendre un TEXT plus « COOPératif » en gestion de l?information – TEXTCOOP

Résumé de soumission

Les outils de gestion de l'information prennent une place de plus en plus importante dans notre société. Pourtant, malgré les travaux destinés à améliorer leurs performances, ils ne parviennent toujours pas à donner pleine satisfaction aux utilisateurs. Le projet TextCoop a pour objectif d'introduire des modules d'analyse de la structure des textes au sein d'outils de gestion de l'information. Ces modules consistent en une analyse structurelle via des grammaires de textes ainsi qu'en une catégorisation typologique des documents. Ils permettront deux choses : une plus grande précision dans les analyses des outils et une plus grande capacité d'interaction.

Les grammaires de textes permettent de retrouver la structure argumentative de documents comme les textes procéduraux. La connaissance de cette structure par les outils permettra d'effectuer des recherches plus ciblées et de répondre de manière plus adaptées. Ainsi, on sait qu'un document procédural comportera une série d'instructions précises. Un système de question/réponse capable de détecter ces instructions pourra plus précisément répondre à une question du type « comment ».

Les typologies de textes constituent une catégorisation des documents selon leur fonction. Il ne s'agit pas de dire que tel ou tel document parle de cuisine ou d'informatique mais plutôt de dire que c'est une recette de cuisine ou une notice de montage. La possibilité de typer de manière automatique des textes permet également de prévoir des améliorations sensibles dans les outils de gestion de l'information, en particulier dans les moteurs de recherche. Pour ces derniers, des aides à la navigation utilisant les types de textes pourraient permettre à l'utilisateur d'éliminer immédiatement les types de documents qui ne l'intéressent pas (description de matériel, etc.) si ce qu'il cherche est une notice de montage. De plus, les typologies permettront d?associer la grammaire la plus adaptée à un document donné.

Trois partenaires, l'IRIT, le LIPN et Sinequa, développeurs des solutions proposés, se sont associés au Groupe Revue Fiduciaire qui testera le système sur ses besoins concrets.

Trois applications cibles sont visées. La première consiste à inclure les analyses fournies par la catégorisation typologique et les grammaires de textes dans un moteur de recherche afin de pouvoir faire une recherche plus précise et renvoyer une réponse plus ciblée ainsi que donner des fonctionnalités d'aide à la navigation plus évoluées. La seconde consiste à appliquer ces techniques dans un système de question/réponse car la structure donne en elle-même des éléments de réponse à certaines question de type « comment » et « pourquoi ». A cela, nous ajouterons une exploitation de la structure pour faire une réponse en langage naturel plutôt qu'en renvoyant simplement un passage. La dernière application sera fournie par le partenaire valideur.

Les documents qui seront visés principalement dans ce projet sont les documents procéduraux (pris d'un point de vue général par l'IRIT et d'un point de vue spécifique par le LIPN).

Les domaines RNTL visés par ce projet sont le 2.8 (pour la gestion, l'analyse et l'interrogation de documents) 2.9 (pour bases de texte, entrepôts thématiques, recherche d'information, interrogation de flots de données, classification, fouille de texte et apprentissage).

Le projet s'attaque à deux domaines où très peu de travail a été fait jusqu'à présent : les grammaires de textes et les typologies de documents. Les deux éléments constitutifs du projets sont donc des innovations technologiques par eux-mêmes. En particulier, nous n'avons pas connaissance de moteurs de recherche, ou de système de question/réponse utilisant ce type de techniques. Or des expériences conduites à l'IRIT en 2004 ont pu montrer que les grammaires de textes semblent avoir un apport très bénéfique sur de tels systèmes. Il reste à tester cela avec un passage à l'échelle.

Le projet permettra, à court ter

Coordination du projet

(PME (petite et moyenne entreprise))

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

UNIVERSITE PARIS 13

Aide de l'ANR 430 053 euros
Début et durée du projet scientifique : - 30 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter