CONTINT - Contenus et Interactions 2012

Lecture et interaction bilingues enrichies par les données d'alignement. – TransRead

Résumé de soumission

La mondialisation des échanges, l'avènement d'un nouveau média polyglotte (internet) multiplient les rencontres et interactions, réelles ou virtuelles, entre des entreprises et/ou individus de langues différentes, suscitant une demande croissante pour des services de traduction. Face à cette demande, la traduction automatique (TA) a connu un essor sans précédent, accompagné de progrès fulgurants et s'impose comme une des technologies-clé d'un internet de plus en plus multilingue.

L'effort de recherche et développement récent s'est principalement concentré sur les systèmes de TA qui simulent l'action d'un traducteur humain et fonctionnent en "boîte noire". Si la qualité actuelle des traductions ainsi produites reste très en-deçà de celle de traductions humaines, et s'il est probable qu'il en sera ainsi pendant de nombreuses années, elle s'avère suffisante pour rendre de nombreux services aussi bien auprès du grand public que, de plus en plus, auprès de traducteurs professionnels.

L'objectif du projet TransRead est d'étudier de nouvelles applications multilingues destinées à faciliter la consultation de documents en plusieurs langues par des utilisateurs imparfaitement bilingues. Au rebours des approches "boîte noire", qui ciblent un public monolingue, TransRead s'intéresse donc en premier lieu à la visualisation de textes bilingues et des alignements qui les lient.

Une technologie, largement banalisée, d'exploitation d'alignements bilingues est le sous-titrage, qui permet de lire dans une langue ce qu'on entend dans une autre, les deux modalités s'enrichissant mutuellement à des degrés qui varient selon les compétences linguistiques des spectateurs. Par analogie, une des visées de TransRead est l'exploration des formes que pourrait prendre le sous-titrage de livres et d'imaginer comment l'utilisation d'alignements translingues, calculés au niveau des phrases et des groupes de mots, mais également au niveau des entrées de dictionnaire, permettront de faciliter et d'enrichir et l'expérience de lecture en langue source. Nous comptons, à cet effet, mobiliser les possibilités offertes par l'arrivée de nouveaux types d'équipements mobiles (tablettes tactiles, lecteurs électroniques) et les avancées des techniques de visualisation d'information.

Entre méconnaissance totale d'une langue (traduire est indispensable) et bilinguisme parfait (traduire est inutile), il existe une multiplicité de contextes de bilinguisme partiel, qui pourraient utilement bénéficier de tels dispositifs de médiation multilingue: des apprenants d'une langue seconde, des adultes éduqués évoluant dans un contexte international, des migrants en phase d'insertion, des habitants de pays multilingues, des locuteurs de langues apparentées, ou encore, dans un cadre plus industriel, des traducteurs ou des travailleurs des métiers de l'édition littéraire, technique, juridique ou commerciale.

Ce dernier contexte permettra d'explorer un second cadre applicatif, celui du contrôle de qualité de traductions humaines et/ou de mémoires de traduction. Les corpus parallèles ou bitextes, constitués d'un texte et de sa traduction, sont des ressources essentielles pour les environnements de traduction assistée par ordinateur. Il est possible d'en extraire des lexiques, des terminologies bilingues, voire des mémoires de traduction, sans parler de leur utilisation en TA statistique. La question de la qualité de ces ressources et de leur adéquation à ces utilisations est pourtant peu étudiée. Un second objectif de TransRead est d'étudier et de développer des stratégies d'exploration de bitextes qui permettront d'en mieux contrôler la qualité; un aspect important de cette étude étant le calcul d'indicateurs numériques de la validité de l'alignement entre deux versants d'un bitexte; un autre étant de trouver les techniques de visualisation adaptées au traitement efficace de ces grands corpus.

François YVON (Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

CEDRIC Centre d'Etudes et de Recherche en Informatique et Communications
Reverso Softissimo Softissimo
LIMSI-CNRS Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

Aide de l'ANR 593 637 euros
Début et durée du projet scientifique : septembre 2012 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.