CORD - Contenu et interaction 2009

Service collaboratif de traduction automatique pour textes scientifiques – COSMAT

Résumé de soumission

La communication scientifique, est aujourd'hui, essentiellement basée sur l'anglais. La raison en est simple: pour être lus et reconnus par la communauté scientifique internationale, les articles doivent être écrits en anglais et sont majoritairement présentés en anglais. De plus, alors que la recherche en France implique de plus en plus de partenaires européens, la langue d'échange et donc de travail devient l'anglais par nécessité. Paradoxalement, la réglementation prévoit que les manuscrits des diplômes de thèse et d'habilitation à diriger les recherches doivent être rédigés en français. Une bonne illustration se trouve sur le site « HAL » (ccsd/cnrs) d'archivage des articles scientifiques où la très grande majorité des articles sont écrits en anglais, alors que sur le serveur associé de thèses multidisciplinaire (TEL) la quasi-totalité des manuscrits sont rédigés en français. Les scientifiques se voient donc couramment sollicités pour traduire leurs propres articles de l'anglais vers le français ou d'écrire plusieurs présentations de leur propre recherche en français et en anglais. De nombreux services de traduction automatique sont disponibles sur le Web, et l'analyse qualitative des requêtes effectuées quotidiennement sur ces services généralistes montre que ces services sont utilisés pour traduire des textes scientifiques - il est clair que la qualité de la traduction obtenue est loin d'être suffisante pour une exploitation efficace, et fournit même vraisemblablement des contresens du fait que la terminologie propre de ces articles n'est pas connue par ces services. Le projet COSMAT adresse la problématique d'une nouvelle génération de services de traduction en ligne par domaine. Appliquée à la traduction d'articles scientifiques pour des traductions en anglais-français, et en interaction avec le portail de publications scientifiques « HAL », ces services de traduction, uniques, se caractériseront par : - une traduction de qualité personnalisée par domaine - des moteurs de traduction basé sur des techniques statistiques, mis à jour tous les jours et s'enrichissant des retours de la communauté d'utilisateurs et des nouvelles données postées - une interface Web 2.0, permettant de présenter de manière intuitive les résultats de la traduction, et d'obtenir en un nombre de clicks minimum du « feedback » des utilisateurs - des utilitaires additionnels d'aide à la traduction Pour parvenir à ce résultat, les objectifs scientifiques du projet sont d'utiliser de manière plus efficace des données d'entraînement restreinte - en particulier en gérant plus efficacement des domaines nombreux, et en introduisant plus de données linguistiques dans le processus d'entraînement et de décodage statistique, et en recherchant des phrases similaires dans des textes non a priori alignés. Ce service, en permettant de donner une meilleure visibilité et dynamique aux contenu de HAL, permettra aussi surtout de mettre en place un concept nouveau qui pourra s'appliquer à de nombreux autres domaines et paires de langues. Le consortium regroupe SYSTRAN le leader mondial des services de traductions en ligne, le LIUM/Holger Schwenk expert reconnu dans le domaine de la traduction statistique, et l'INRIA-IST/Laurent Romary représentant le serveur d'archivage des articles HAL.

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Aide de l'ANR 558 711 euros
Début et durée du projet scientifique : - 0 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.