MDCA - Programme "Masse de Données - Connaissances Ambiantes" 2006

– Passage

Résumé de soumission

Contexte et motivations Les motivations principales de la proposition PASSAGE sont doubles: améliorer la précision et la robustesse des analyseurs syntaxiques existants pour le Français, en les utilisant sur de gros corpus (plusieurs million de mots) et exploiter les annotations syntaxiques résultantes pour créer des ressources linguistiques plus riches et plus extensives. La méthodologie adoptée consiste en une boucle de rétroaction (feedback) entre analyse syntaxique et création de ressources, comme suit : l'analyse syntaxique est utilisée pour créer des annotations syntaxiques les annotations sont utilisées pour créer ou enrichir des ressources linguistiques comme des lexiques, grammaires ou corpus annotés les ressources créées ou enrichies sur la base des annotations sont ensuite intégrées dans les systèmes d'analyse. les analyseurs enrichis sont utilisés pour créer des ressources encore plus riches (par exemple syntactico-sémantiques) etc… Plus généralement, le projet PASSAGE devrait aussi aider à faire émerger des chaînes de traitement linguistique exploitant des informations lexicales plus riches, en particulier sémantiques. PASSAGE s'appuie sur les résultats de la campagne d'évaluation des analyseurs syntaxiques menée dans le cadre de l'action EASy/EVALDA (programme Technolangue). Cette campagne a montré que plusieurs systèmes d'analyse existent désormais pour le Français. Néanmoins, bien que les résultats furent meilleurs que prévus, cette campagne a confirmé que la robustesse et la précision peuvent encore être largement améliorées, en particulier pour les données orales. De plus, bien que le plan initial de EASy était de combiner les résultats produits par chaque participant pour construire une treebank du Français (un corpus annoté syntaxiquement), cette phase reste à venir, et le résultat, malgré son intérêt certain, restera relativement limité (environ 40K phrases avec un sous-ensemble de 4K phrases manuellement validées), au regard des standards internationaux qui émergent (10M à 100M mots, i.e. 0.5M à 5M phrases). PASSAGE vise à poursuivre et à étendre la ligne de recherche initiée par la campagne EASy. En particulier, PASSAGE cherche à : organiser des nouvelles campagnes d'évaluation pour évaluer et améliorer les systèmes d'analyse syntaxiques du Français sur de gros corpus (millions de mots) finaliser une méthodologie pour comparer et fusionner les résultats fournis par plusieurs analyseurs utiliser les résultats fusionnés des meilleurs analyseurs pour construire une treebank du Français valider cette treebank soit manuellement soit automatiquement utiliser à la fois cette treebank et la partie non-validée du gros corpus annoté syntaxiquement pour extraire des informations linguistiques intégrer les ressources ainsi acquises dans les analyseurs développer les méthodologies pour évaluer la qualité des ressources ainsi acquises La participation d'une dizaine systèmes d'analyse syntaxique dans un effort collectif tourné vers l'acquisition de ressources linguistiques est une occasion plutôt unique. Nous pensons que la combinaison d'autant de sources d'information sur une période d'adaptation relativement longue renforce les chances de succès de cette proposition. Retombées scientifiques et techniques attendues Retombées scientifiques et techniques attendues Les retombées attendues du projet PASSAGE incluent : l'émergence de chaînes de traitement linguistique pour le Français qui soient plus robustes, efficaces, et précises, avec de plus une meilleure évaluation de leur niveau de performance. l'identification de méthodologies et de protocoles pour effectuer des tâches d'acquisition de connaissances linguistiques. Ces méthodologies devraient être adaptables pour d'autres langues que le Français, en particulier pour traiter des langues pauvrement dotées, aidant ainsi à surmonter le fameux problème du goulet d'étranglement en Traitement Automatique des Langues (TAL) une banque d'annotations syntaxiques (en dépendance

Coordination du projet

Organisme de recherche

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

COMMISSARIAT A L'ENERGIE ATOMIQUE ET AUX ENERGIES ALTERNATIVES - CENTRE D'ETUDES NUCLEAIRES SACLAY

Aide de l'ANR 428 480 euros
Début et durée du projet scientifique : - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter