JCJC - Programme "Jeunes chercheuses et jeunes chercheurs" 2006

Algorithmes d'apprentissage innovateurs pour la tradution par approches statistiques – Instar

Résumé de soumission

Dans notre monde de communication à l'échelle mondiale, la traduction automatique ou assistée par ordinateur est devenue une technologie clef. La traduction par ordinateur a été en fait placée à la première position dans une récente enquête sur les dix technologies émergentes qui changeront le monde (MIT technology review, fevrier 2004). On peut anticiper que la traduction sera un outil indispensable à notre travail au quotidien dans un contexte où le nombre de langues officielles en Europe augmente et les pages Internet non anglaises ne cessent de croître. La traduction par ordinateur est une tâche scientifique complexe faisant intervenir pratiquement tous les aspects du traitement du langage naturel. La traduction automatique de textes est un thème de recherche depuis plusieurs décennies et différentes approches ont été proposées. Plusieurs indicateurs suggèrent que l'approche statistique à la traduction automatique est la plus prometteuse actuellement. Les approches statistiques ont été très bien placées dans des évaluations internationales et cette approche est largement dominante dans un grand projet récent de la DARPA sur la traduction et l'analyse automatique de la parole. De nombreux centres de recherche mondialement connus plébiscitent cette approche, comme par exemple des universités en Allemagne, Angleterre, Italie, Espagne et des entreprises américaines (IBM, Google, Microsoft, ...). Par ailleurs, il semblerait que la traduction automatique soit l'objet de très peu de centres de recherche français. A notre connaissance, aucun de ces centres n'a développé un système de traduction utilisant des méthodes statistiques. Le but de ce projet jeune chercheur est donc d'intensifier significativement les recherches dans le domaine de la traduction automatique par approche statistique et d'initier la création d'un centre de recherche dans ce domaine. Ce projet réunit quatre chercheurs qui apportent des expériences dans tous les domaines importants: techniques d'apprentissage automatique, modélisation statistique, morpho-syntaxique et sémantique, etc. Un prototype de système de traduction existe déjà et servira comme base à nos activités. Nous proposons explicitement de concentrer nos recherches sur des techniques innovantes. Dans ce cadre, nous chercherons des collaborations avec la communauté d'apprentissage automatique. Notre méthodologie se fonde sur un échange actif avec d'autres chercheurs, incluant des visites mutuelles. Il est par exemple prévu d'inviter des chercheurs renommés pour une courte durée afin de travailler ensemble. Nous pensons qu'il s'agit là de la meilleure façon de faire circuler rapidement des idées prometteuses et de faire connaître nos activités de recherche. Les recherches proposées dans ce projet s'articulent autour de trois axes : des modèles de langage statistiques avancés, des modèles de traduction contextuels et l'incorporation avancée de connaissances experte. L'approche statistique de la traduction utilise un modèle de langage pour modéliser la langue cible. Les modèles 3-gramme à repli actuellement utilisés nécessitent une grande quantité de données représentatives de la tâche. Or pour de nombreuses applications (touristiques ou médicales, par exemple), ce n'est pas le cas. Nous proposons de travailler sur des modèles de langage statistiques avancés afin de d'exploiter au mieux les données disponibles. Une aborderons également l'adaptation du modèle de langage : adaptation au sujet actuel (p.ex. restaurants ou attractions dans une application touristique) ou adaptation diachronique, c'est-à-dire l'adaptation à l'évolution de la langue dans le temps (p.ex. pour considérer de nouveaux noms propres). L'approche statistique se base aussi sur des modèles de traduction qui sont appris à partir de textes bilingues alignés, une ressource difficile à obtenir en grande qu...

Université

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

CNRS DR IDF SECTEUR SUD

Aide de l'ANR 144 000 euros
Début et durée du projet scientifique : - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.