CONTINT - Contenus et Interactions

Analyse Sémantique en Frames : Annotation, Lexique, Discours et Automatisation – ASFALDA

Analyse sémantique automatique pour un accès intelligent aux documents électroniques

En fournissant des ressources et des outils pour le repérage automatique de situations prototypiques (comme des communications, des déplacements, des transactions...), le projet contribuera à améliorer l'accès automatique au sens des textes disponibles électroniquement, utilisable en résumé automatique, classification de documents, recherche d'information.

Repérage de situations prototypiques pour un accès intelligent aux contenus électroniques

Etant donné le volume croissant d'information disponible sur Internet, il est nécessaire de développer des outils de plus en plus sophistiqués d'accès au contenu des documents. Actuellement les moteurs de recherche sur Internet fonctionnent avec des algorithmes très sophistiqués, mais une représentation des textes extrêmement simple : des mots-clés. La technologie d'analyse sémantique vise à fournir non seulement le sens des mots en contexte de leur utilisation, mais également à expliciter le sens de phrases ou documents entiers. <br />Le projet ASFALDA a pour but de fournir des ressources et un outil pour le repérage automatique de situations prototypiques. L'analyse visée peut être caractérisée comme l'explicitation de «qui fait quoi, quand et où«, en faisant abstraction de l'ordre des mots et des structures syntaxiques, ainsi que de la variabilité lexicale inhérente à la langue.<br />Le projet contribuera ainsi aux défis liés au traitement de l'information dans les contenus électroniques, notamment pour des outils dédiés à:<br />- l'accès aux contenus (recherche d'information, résumé automatique, classification de documents, traduction automatique, extraction d'informations),<br />- l'inférence à partir de contenus annotés.<br />L'enjeu est d'améliorer l'accès au contenu tant pour le grand public, pour un meilleur accès à des contenus culturels, éducationnel ou d'information, que pour le monde industriel, en permettant une meilleure analyse des tendances des marchés, des attentes des consommateurs, des évolutions technologiques.

Le projet s'appuie sur un modèle standard de modélisation de situations prototypiques (FrameNet) et sur des travaux précédents d'annotation linguistique pour le français (le French TreeBank).
Le projet FrameNet initial propose un ensemble structuré de situations prototypiques, appelées frames, associées à des caractérisations sémantiques des participants impliqués (les rôles). Nous proposons de tirer parti de cette structure, qui s'est déjà avérée adaptée à plusieurs langues, pour
- construire un FrameNet français, i.e. un lexique indiquant les lexèmes français pouvant signifier les frames, et un corpus où sont explicités les occurrences des frames et des rôles associés.
- et s'appuyer sur cette ressource pour développer un moteur d'analyse sémantique capable de repérer automatiquement des situations prototypiques (communication, transaction, déplacement ...).
Les points scientifiques sur lesquels le projet met l'accent sont:
- la diversité des moyens possibles pour l'expression d'une même situation, y compris ceux mettant en jeu plusieurs phrases (connecteurs de discours)
- les techniques semi-supervisées pour l'analyse sémantique.
Pour valider l'approche, notre projet comprend l'intégration de l'analyse sémantique dans un moteur de recherche industriel ainsi que la mesure de l'utilité d'une telle intégration en termes de satisfaction client.

Nous n'avons pas encore de résultats concrets, le projet ayant débuté il y a 6 mois.

-

Nous n'avons pas encore de résultats concrets, le projet ayant débuté il y a 6 mois.

Le projet ASFALDA a pour but de développer un corpus du français annoté sémantiquement ainsi que des outils d'analyse sémantique de surface entraînés sur ce corpus, au moyen de techniques d'apprentissage automatique. Les annotations visées peuvent être caractérisées comme explicitant "qui fait quoi, quand et où", en faisant abstraction de l'ordre des mots et des structures syntaxiques, ainsi que de la variabilité lexicale inhérente à la langue.
Un cas d'application prévoit l'utilisation de l'analyseur sémantique produit au sein d'un moteur de recherche, dans le cadre d'un outil de gestion de contenu, avec une évaluation de l'impact d'une indexation sémantique pour l'utilisateur final.

Le projet contribuera ainsi aux défis liés au traitement de l'information dans les contenus électroniques, notamment pour des outils dédiés à:
• l'accès aux contenus (recherche d'information, résumé automatique, classification de documents, traduction automatique, extraction d'informations),
• l'inférence à partir de contenus annotés.
Pour atteindre ces objectifs, nous nous appuyons sur un modèle standard de l'annotation sémantique en prédicats et en rôles (FrameNet) et sur des travaux précédents d'annotation linguistique pour le français (le French TreeBank).
Le projet FrameNet initial, qui traite de l'anglais, propose un ensemble structuré de situations prototypiques, appelées frames, associées à des caractérisations sémantiques des participants impliqués (les rôles). Nous proposons de tirer parti de cette structure, qui s'est déjà avérée adaptée à plusieurs langues, pour construire un FrameNet français, i.e. un lexique indiquant les lexèmes français pouvant signifier les frames, et un corpus où sont explicités les occurrences des frames et des rôles associés. L'ajout d'annotations sémantiques au French Treebank, déjà annoté en morphologie et en syntaxe, accroîtra encore son utilité à la fois pour des études linguistiques et pour des outils de TAL sémantique reposant sur l'apprentissage automatique (annotation sémantique, fouille de textes, extraction d'information…).
Pour pallier les difficultés inhérentes à un tel projet en termes de couverture, nous adoptons une stratégie hybride qui permettra d'obtenir des annotations exhaustives d'une part pour certains champs sémantiques spécifiques, et d'autre part pour 100 verbes fréquents.

Les points scientifiques sur lesquels le projet met l'accent sont:
• la diversité des moyens possibles pour l'expression d'un même frame, y compris ceux mettant en jeu plusieurs phrases (connecteurs de discours)
• les techniques semi-supervisées pour l'analyse sémantique

Le projet est ambitieux et ne pourrait être mené à bien sans une collaboration étroite au sein du partenariat d'ASFALDA. Celui-ci fédère des compétences complémentaires en annotation linguistique (LLF, Alpage, IRIT), analyse discursive (IRIT, Alpage), analyse syntaxique et techniques d'apprentissage automatique (Alpage, LIF, CEA LIST) et moteurs de recherche enrichis par l'analyse linguistique (CEA LIST, Ant'inno).

Coordination du projet

Marie CANDITO (Centre de recherche INRIA Paris - Rocquencourt / EPI Alpage) – marie.candito@gmail.com

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

IRIT Institut de Recherche en Informatique de Toulouse
LIF Laboratoire d'Informatique Fondamentale de Marseille
Ant'Inno Société Ant'Inno
LLF Laboratoire de Linguistique Formelle
CEA LIST Commissariat à l'Energie Atomique et aux Energies Alternatives
ALPAGE Centre de recherche INRIA Paris - Rocquencourt / EPI Alpage

Aide de l'ANR 791 706 euros
Début et durée du projet scientifique : septembre 2012 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter