CE23 - Données, Connaissances, Big data, Contenus multimédias, Intelligence Artificielle

Outils Neuronaux « End-to-End » pour la TRAduction des Communications – ON-TRAC

Résumé de soumission

Le projet ON-TRAC propose de changer radicalement les architectures utilisées en traduction de parole actuellement. Il s'appuie sur les modèles neuronaux de type end-to-end pour la traduction automatique et vise plus particulièrement les applications légères et portatives de traduction de la parole qu'Airbus développe pour les opérations de sécurité sur les théâtres d'opération.

Au-delà de l'étude des approches end-to-end s'appuyant sur des couples de langue associés à des données d'apprentissage de taille conséquente, ON-TRAC étudiera le développement de modèles pour des langues orales ou dialectales peu dotées.
Une approche end-to-end de traduction de la parole telle que nous l'envisageons permettrait de revoir la méthodologie de collectes de données pour le développement d'un système de traduction de la parole.
En effet, avec cette approche, une transcription de la langue source devient inutile : le coût de production des données nécessaires à l'apprentissage d'un système de traduction de la parole est donc fortement réduit et le développement d'un tel système pour de nouvelles langues (y compris celles n'ayant pas de système d'écriture) serait facilité et accéléré.
Puisque le projet vise des applications portatives de traduction, ON-TRAC s'intéresse également à l'étude du temps de calcul et de l'empreinte mémoire nécessaires pour la traduction neuronale de la parole.
ON-TRAC permettra le traitement de trois paires de langues distinctes avec un intérêt opérationnel sécurité et défense et un niveau de difficulté croissants (anglais-français ; pashto-français ; tamacheq-français).

Le projet ON-TRAC s'inscrit dans l'axe 4 « Données, Connaissances, Big Data, Contenus multimédias, Intelligence Artificielle » du défi 7 « Société de l'information et de la communication » du plan d'action 2018 de l'ANR.
Par sa thématique scientifique principale dédiée à la traduction de la parole par des approches neuronales end-to-end, il se positionne clairement dans les thèmes ''Des données aux connaissances'' et ''Traitement des contenus multimedia''.

Les technologies développées dans le projet ON-TRAC seront expérimentées sur trois paires de langues, avec le français écrit comme langue cible systématique.
La première paire de langues étudiée sera l'anglais parlé vers le français écrit pour des raisons de simplicité et pour une meilleure perception des phénomènes se manifestant durant la traduction à travers l'analyse des sorties de nos systèmes, l'anglais étant suffisamment maîtrisé par l'ensemble des acteurs du projet.
La langue pashto sera la langue source de la seconde paire de langues. Ce choix est dicté par le fait que le traitement d'un dialecte oral entre dans les objectifs affichés du projet, et par le fait d'un coût de collecte minimisé puisque le consortium dispose déjà d'une centaine d'heures d'enregistrements audio en pashto, avec leurs traductions textuelles en français (ainsi que leur transcription en pashto).
Enfin, la troisième paire de langue aura pour langue source le tamacheq, dialecte oral parlé par les Touaregs dans différentes zones d'intérêt pour le renseignement et la sécurité (Sahel, Niger, Mali, Burkina Faso, Libye...). À ce titre, il revêt un intérêt fort et déjà exprimé par les services d'État concernés.

Coordinateur du projet

Laboratoire Informatique d’Avignon (Laboratoire public)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Laboratoire Informatique d’Avignon
LABORATOIRE D'INFORMATIQUE DE L'UNIVERSITE DU MANS (LIUM)
AIRBUS DEFENCE AND SPACE SAS
Université Grenoble Alpes

Aide de l'ANR 599 999 euros
Début et durée du projet scientifique : - 36 Mois

Liens utiles