DEFIS - domaines émergent 2008

Analyse syntaxique probabiliste à large couverture du français – SEQUOIA

Résumé de soumission

Le problème auquel on se propose de s'attaquer dans ce projet est celui de l'analyse syntaxique automatique probabiliste à large couverture du français. L'analyse syntaxique automatique consiste à produire, à partir d'une phrase d'une langue donnée, toutes les analyses syntaxiques de cette dernière. Un analyseur est probabiliste s'il associe de plus à toute analyse produite, une probabilité, calculée à l'aide d'un modèle probabiliste. Un analyseur est dit à large couverture s'il est capable d'analyser un échantillon significatif des phrases de la langue étudiée. L'analyse syntaxique constitue généralement une étape préliminaire à une analyse du sens de la phrase et intéresse à ce titre plusieurs applications relevant du traitement automatique des langues, telles que l'extraction d'informations ou la traduction automatique. Les raisons pour lesquelles nous nous intéressons à ce problème sont de trois ordres : 1 - L'explosion de la diffusion de contenus textuels numériques, notamment sur l'internet pose de manière cruciale le problème du traitement de leur contenu. Les techniques actuelles mises en oeuvre pour le traitement du contenu textuel font généralement l'économie d'une analyse syntaxique complète des phrases du texte à traiter. La raison principale est l'absence d'analyseurs syntaxiques possédant la maturité suffisante pour être intégrés dans une application de grande ampleur. Les conséquences sont un traitement moins précis de l'information. 2 - L'analyse syntaxique probabiliste a connu, depuis une quinzaine d'années un développement spectaculaire, qui a permis une amélioration significative des performances des analyseurs. Les développements ont surtout été réalisés aux Etats-Unis et portent sur l'anglais. La France accuse de ce point de vue un retard important, tant au niveau de la recherche qu'au niveau de la réalisation d'analyseurs pour le français. 3- Les équipes impliquées dans le présent projet sont à la pointe de la recherche dans leurs domaines respectifs (traitement automatique des langues, modélisation probabiliste de la langue, analyse syntaxique et apprentissage automatique). Leur collaboration permettra l'émergence d'une équipe originale dans le paysage de la recherche française. Elle sera de plus particulièrement bien armée pour s'attaquer à un problème de cette ampleur. Ce projet relève par certains aspects de la recherche fondamentale et par d'autres de la recherche appliquée. Il permettra d'une part une meilleure visibilité de la France sur ce thème de recherche et, d'autre part, de fournir à la communauté du traitement automatique du français un analyseur de performances au moins égales à l'état de l'art international. La stratégie générale adoptée pour ce projet consiste à produire un analyseur état de l'art pour le français, en recourant aux techniques qui ont prouvé leur efficacité pour l'anglais puis, à l'issue de l'analyse des résultats obtenus, aller au delà de l'état de l'art en reposant sur les compétences complémentaires des équipes partenaires.

Université

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Aide de l'ANR 623 157 euros
Début et durée du projet scientifique : - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.