DS0707 - Interactions des mondes physiques, de l'humain et du monde numérique

Méthodes qualité avancées pour la post-édition de traduction automatique – KEHATH

Résumé de soumission

La communauté de la traduction a vu un changement majeur au cours des cinq dernières années : la traduction automatique est devenue suffisamment bonne pour qu'il devienne plus avantageux pour des traducteurs de post-éditer une traduction machine plutôt que de traduire directement. Ceci s'explique par les évolutions récentes en traduction automatique statistique, c'est-à-dire l'entraînement d'un moteur de traduction à partir d'un corpus de textes traduits existants. Les systèmes actuels d'amélioration de traduction automatique à partir de la post-édition de sorties brutes sont relativement efficaces mais assez frustres : le texte post-édité est ajouté au corpus d'entraînement et le modèle de traduction et le modèle linguistique sont entraînés à nouveau, sans vision précise de ce qui a été amélioré ni de ce qui reste à améliorer. Dans cette démarche, seul le résultat brut de la post-édition est utilisé, aucune autre information n'est mise à profit, comme par exemple les processus cognitifs du post-éditeur ou l'enregistrement des actions qu'il a effectuées. Le projet KEHATH propose de revoir la boucle traduction automatique / post-édition de deux façons :
D'une part, mettre en œuvre des techniques avancées en apprentissage automatique. Notre objectif est de renforcer l'impact de la post-édition, c'est-à-dire atteindre les mêmes performances avec moins de post-édition ou alors atteindre de meilleures performances avec la même quantité de post-édition. En d'autres termes, nous souhaitons améliorer la courbe d'apprentissage des systèmes de traduction automatique spécialisés par domaine. Pour cela, des techniques d'apprentissage actif ou par renforcement seront proposées et évaluées. Le contexte industriel de KEHATH nous confrontera par ailleurs aux défis de l’hétérogénéité des systèmes (statistiques ou par règles) et du passage à l'échelle des algorithmes d'apprentissage automatique.
D'autre part, la prédiction de qualité de traduction automatique est d'une utilité cruciale pour les chefs de projets de traduction. Nous avons développé au fil du temps plusieurs techniques d'estimation de confiance et de détection d'erreurs en laboratoire, nous comptons les mettre en œuvre et les évaluer en conditions réelles. Nous partageons la conviction que ce travail doit s'appliquer à un flot continu de textes spécialisés par domaine, de façon à démontrer clairement l'amélioration de la traduction automatique et la performance des indicateurs de prédiction de qualité.
Le but du projet KEHATH est simple : gagner de la qualité de traduction automatique le plus vite possible pour chaque nouveau projet industriel de traduction, de façon à ce que le temps et le coût de post-édition soient très fortement réduits. La recherche fondamentale est le meilleur moyen d'atteindre cet objectif, pour un impact industriel qui soit puissant et immédiat.

Coordination du projet

François Brown De Colstoun (Lingua et Machina)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LIG Laboratoire d'Informatique de Grenoble
LIFL UNIVERSITE LILLE I
L&M Lingua et Machina

Aide de l'ANR 498 844 euros
Début et durée du projet scientifique : septembre 2014 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter