CONTINT - Contenus et Interactions

Analyse et synthèse dans les grammaires catégorielles abstraites : du lexique au discours – Polymnie

Résumé de soumission

Le projet de recherche fondamentale que nous proposons s'appuie sur le formalisme des grammaires catégorielles abstraites (ACG). Une caractéristique de ce cadre formel est de considérer avec les même outils mathématiques les formes de surface et les formes plus abstraites auxquelles elles sont liées, en leur accordant la même importance. Ce choix a pour principales conséquences:
* les ACG permettent d'encoder une grande variété de formalismes grammaticaux tels que les grammaires hors-contexte, grammaires d'arbre adjoints, etc.
* deux langages sont définis par une ACG: un langage abstrait, celui des formes abstraites; et un langage objet, celui des formes de surface.

Il est important de noter que les notions de surface et d'abstraction pour une ACG sont relatives l'une à l'autre et a priori indépendantes de toute autre considération. Ainsi, s'il est naturel de penser à une forme de surface comme à une chaîne de caractères par exemple, et à un arbre syntaxique pour la forme abstraite associée, on peut également penser associer à cette forme abstraite une formule de la logique du premier ordre comme forme de surface. Cette propriété est au cœur de notre proposition en ce qu'elle permet une approche unifiée de l'analyse et de la synthèse de textes, notamment du point de vue des algorithmes mis en œuvre et de leur complexité.

Les ACG sont définies à l'aide de la théorie des types et du lambda-calcul. De ce point de vue, elles s'intègrent très naturellement aux modèles de la sémantique formelle tels que proposés initialement par Montague. Pour les théories tenant compte des effets dynamiques du discours telles que la DRT ou DPL, si ces modèles n'ont pas été initialement formulés à l'aide du lambda-calcul, de telles formulations ont été proposées qui permettent de les exprimer très naturellement dans le modèle des ACG. Les effets liés au discours, en particulier ceux liés à la résolution d'anaphores ou à l'inférence de relations de discours, doivent donc être exprimés par les informations de sémantique présentes dans le lexique ou dans les constructions syntaxiques utilisées.

Il a été montré que la structure discursive d'un texte joue un grand rôle dans sa compréhension, non seulement pour les humains, mais aussi pour améliorer les performances des traitements automatiques liés à la transformation de textes comme par exemple la construction des résumés en écartant les parties du discours de moindre importance.

Notre projet porte donc sur l'étude et la mise en œuvre de la modélisation de phrases puis de textes (discours) dans un paradigme compositionnel qui prenne en compte leurs aspects de dynamicité et de structure. Ceci en analyse mais également en synthèse. Nous nous appuyons pour ce faire sur le cadre formel des ACG. Le type de traitement dans lequel nous souhaitons inscrire ces études appartient au domaine de la construction de résumé ou de la simplification de textes dans la limite de la modélisation des facultés linguistiques (à opposer à faculté inférentielle par exemple) que ces tâches requièrent.

La complexité des phénomènes rencontrés, celle de leur description dans le formalisme choisi, et celle de leurs interactions rend également nécessaire la mise en place d'un environnement de test et de développement pour la modélisation linguistique. Celui-ci consistera essentiellement à l'extension et à la stabilisation d'un outil logiciel implantant les fonctionnalités liées au modèle des ACG. À terme, avec les grammaires développées, ce logiciel permettra l'analyse et la synthèse de phrases et de textes en français en tenant compte des phénomènes dynamiques pour chacun de ces aspects. Il permettra l'expérimentation et la validation de l'approche.

Coordination du projet

Sylvain Pogodalla (Centre de Recherche Inria Nancy - Grand Est) – sylvain.pogodalla@inria.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LABRI LABORATOIRE BORDELAIS DE RECHERCHE EN INFORMATIQUE
INRIA Institut National de Recherche en Informatique et Automatique
UPS-IRIT Université Paul Sabatier Toulouse 3 – Institut de Recherche en Informatique de Toulouse
INRIA NGE Centre de Recherche Inria Nancy - Grand Est

Aide de l'ANR 520 288 euros
Début et durée du projet scientifique : août 2012 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter