Traduction automatique pour la science ouverte – MaTOS
MaTOS est un projet pluridisciplinaire, qui rassemble des équipes de cultures scientifiques variées. Les études réalisées reposent d’une part sur des méthodes d’analyse de corpus spécialisés pour constituer des inventaires de termes et étudier leurs usages, que ce soit à l’échelle d’un document, d’une collection ou d’une coupe temporelle.
Elles reposent d’autre part sur le développement de systèmes de traduction automatique de l’état-de-l’art, capables de gérer des contextes de traduction étendus (de plusieurs phrases à plusieurs paragraphes, et au-delà) et de prendre en charge des ressources expertes (dictionnaires spécialisés, mémoires de traduction). Ces systèmes sont spécialisés pour plusieurs domaines scientifiques.
Le travail d’évaluation s’appuie d’une part sur les métriques automatiques de l’état-de-l’art, dans leurs évolutions les plus récentes, intégrant par exemple des grands modèles neuronaux ; il s’appuie d’autre part sur la mobilisation de post-éditeurs spécialistes de leur domaine scientifique, sollicités pour accomplir des tâches de révisions représentatives d’une activité normale de rédaction scientifique.
À mi-parcours, un premier acquis du projet est en ensemble de rapports documentant l'état-de-l’art, focalisés en particulier sur:
- les évaluations humaines de la qualité de traduction
- les évaluations automatiques de la traduction de documents
- les architectures computationnelles pour la traduction de documents.
Diverses ressources ont également été collectées, préparées et mises en forme. Il s'agit de référentiels terminologiques pour deux domaines de spécialités, ainsi que de divers corpus monolingues et bilingues rassemblant en particulier des documents longs (résumés d'articles et articles intégraux) pour ces deux mêmes domaines.
Les développements logiciels réalisés ont porté sur trois aspects:
- le développement d'outils pour repérer les termes et leurs variantes en corpus ; ils seront utilisés pour documenter finement le spectre des variations terminologiques acceptables dans des documents académiques ;
- l'étude de méthodes pour proposer automatiquement des néologismes pour traduire des termes émergents ;
- le développement de systèmes de traduction automatique spécialisés pour la traduction de longs documents scientifiques, reposant aussi bien sur des architectures encodeur / décodeur que sur des grands modèles de langue multilingues.
Concernant enfin l'évaluation, deux études pilotes impliquant la post-édition de résumés traduits automatiquement ont été conduits avec l'implication de traducteurs spécialisés et la participation de membres de la communauté académique, en prévision d'une étude à plus large échelle.
L'ensemble de ces travaux a déjà fait l'objet d'une dizaine de publications qui sont consultables sur le site web du projet, ainsi que de corpus qui sont également distribués par le même canal.
Forts du travail de constitution de ressources déjà accompli ou en cours de finalisation, les principales perspectives pour la fin du projet sont les suivantes :
- analyser la variation terminologique dans les textes source et son corrélat dans des traductions humaines et des traductions automatiques ;
- développer des systèmes de traduction automatique spécialisés capables de traduire des documents entiers, en intégrant non seulement des contraintes terminologiques, mais capables également de produire des textes cohérents et cohésifs, susceptibles d’être publiés avec un minimum de révision ;
- développer des méthodes automatiques pour caractériser et évaluer la capacité des systèmes de traduction automatiques à (a) traduire correctement des segments impliquant des termes spécialisés ; (b) produire des traductions satisfaisant des principes de cohérence des choix terminologiques ;
- mettre en œuvre des évaluations à très large échelle des systèmes et des métriques ainsi conçues en les exploitant dans des dispositifs de post-édition impliquant des communautés d’utilisateurs.
Le projet MaTOS (Machine Translation for Open Science) vise à développer de nouvelles méthodes pour la traduction automatique (TA) intégrale de documents scientifiques, ainsi que des métriques automatiques pour évaluer la qualité des traductions produites. Notre principale cible applicative est la traduction d’articles scientifiques entre le français et l’anglais, pour laquelle des ressources linguistiques peuvent être exploitées pour obtenir des traductions plus fiables, aussi bien dans une optique d’aide à la publication que pour des besoins de lecture ou de fouille de textes. Les efforts pour améliorer la TA de documents complets sont toutefois freinés par l’incapacité des métriques automatiques existantes à détecter les faiblesses des systèmes comme à identifier les meilleures façons d’y remédier. Le projet MaTOS se propose d'aborder ces deux difficultés de front.
Ce projet s’inscrit dans un mouvement visant à automatiser le traitement d’articles scientifiques. Le domaine de la TA n’échappe pas à cette tendance, en particulier pour ce qui concerne le domaine bio-médical. Les applications sont nombreuses : fouille de textes, analyse bibliométrique, détection automatique de plagiats et d’articles rapportant des conclusions falsifiées, etc. Nous souhaitons à la fois tirer profit des résultats de ces travaux, mais également y contribuer de multiples manières: (a) en développant de nouvelles ressources ouvertes pour la TA spécialisée ; (b) en améliorant, par l’étude des variations terminologiques, la description des marqueurs de cohérence textuelle pour les articles scientifiques ; (c) en étudiant de nouvelles méthodes de traitement multilingue pour ces documents ; (d) en proposant des métriques dédiées à la mesure des progrès pour ce type de tâches. Le résultat final permettra, par une traduction améliorée, de fluidifier la circulation et la diffusion des savoirs et connaissances scientifiques.
Coordination du projet
françois Yvon (Institut des Systèmes Intelligents et de Robotique)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
CLILLAC-ARP Université de Paris
ISIR Institut des Systèmes Intelligents et de Robotique
Institut national de la recherche en informatique et automatique
INIST Institut de l'information scientifique et technique
Aide de l'ANR 782 530 euros
Début et durée du projet scientifique :
décembre 2022
- 48 Mois