CE23 - Données, Connaissances, Big data, Contenus multimédias, Intelligence Artificielle

Outils Neuronaux « End-to-End » pour la TRAduction des Communications – ON-TRAC

ON-TRAC : traduire la parole sans la transcrire

Le projet ON-TRAC propose de changer radicalement les architectures actuellement utilisées en traduction de parole en explorant les approches neuronales de bout-en-bout. <br />En réalisant cette tâche avec un seul réseau de neurones profond, il est possible de mieux optimiser ses performances par rapport à un système en cascade qui nécessite d'abord de transcrire automatiquement, puis de traduire cette transcription. <br />Avec ON-TRAC, il devient possible de traduire sans transcrire la langue source.

Enjeux et objectifs

Le projet ON-TRAC vise à explorer les technologies émergentes issues du domaine du deep learn- ing (apprentissage automatique profond) afin de concevoir, implémenter, expérimenter et disséminer une approche nouvelle de traduction automatique de la parole qui s’affranchit de la contrainte ex- posée précédemment (pas de transcription de la parole en langue source). Comme conséquence, le développement de systèmes de traduction automatique de dialectes oraux, mais aussi de parole en général, serait fortement accéléré et son coût largement diminué, offrant l’opportunité d’une réactivité plus forte et un accès facilité à de nouveaux moyens pour les services d'États et les entreprises concernés. <br /> <br />Les technologies développées dans le projet ON-TRAC seront expérimentées sur trois paires de langues, avec le français écrit comme langue cible systématique. La première paire de langues étudiée sera l’anglais parlé vers le français écrit pour des raisons de simplicité et pour une meilleure perception des phénomènes se manifestant durant la traduction à travers l’analyse des sorties de nos systèmes, l’anglais étant suffisamment maîtrisé par l’ensemble des acteurs du projet. La langue pashto sera la langue source de la seconde paire de langues. Ce choix est dicté par le fait que le traitement d’un dialecte oral entre dans les objectifs affichés du projet, et par le fait d’un coût de collecte minimisé puisque le consortium dispose déjà d’une centaine d’heures d’enregistrements audio en pashto, avec leurs traductions textuelles en français (ainsi que leur transcription en pashto). Enfin, la troisième paire de langue aura pour langue source le tamacheq, dialecte oral parlé par les Touaregs dans différentes zones d’intérêt pour le renseignement et la sécurité (Sahel, Niger, Mali, Burkina Faso, Libye...).

La méthodologie suivie dans le cadre de ce projet est classique pour l’exploration d’une nouvelle approche liée à l’utilisation d’algorithmes d’apprentissage automatique. En nous appuyant sur des architectures de réseaux de neurones profonds qui ont fait leur preuve sur d’autres tâches, nous pro- poserons de nouveaux formalismes pour la traduction directe de langues orales vers du langage écrit. Nous les implémenterons afin de les expérimenter dans le but d’atteindre un niveau de qualité suff- isant pour une utilisation en situation opérationnelle. C’est pourquoi nous integrerons ces nouvelles technologies dans des démonstrateurs que le partenaire industriel du projet saura disséminer. Nous préparerons les données d’apprentissage en collectant les données nécessaires pour l’optimisation des réseaux de neurones à la tâche de traduction visée. Afin de minimiser les coûts de collecte, nous utiliserons et enrichirons deux corpus existants. Un troisième corpus sera collecté dans des condi- tions réelles, à partir de zéro, et concernera un dialecte oral signalé comme étant d’un très haut niveau d’intérêt pour des services de renseignement et de sécurité. Les risques du projet ont été identifiés, et pour chacun d’entre eux une solution de repli est envisagée.

Le projet ON-TRAC n'est pas encore terminé mais certains résultats sont déjà significatifs.
Ainsi, les performances de ces nouveaux systèmes purement neuronaux avec un seul modèle atteigne et parfois dépassent les systèmes classiques de type cascade qui nécessitent le développement de deux modules distincts : un modèle de reconnaissance automatique de la parole et un module de traduction.
De plus, le projet ON-TRAC a pu montrer l'impact très positif de l'utilisation de représentations continues de la parole calculées par des modèles neuronaux de manière auto-supervisée pour le traitement de paires de langues peu dotées en ressources numériques.

Il est fort probable que les performances de la technologie développée dans le projet ON-TRAC dépasse celle des systèmes aujourd'hui à l'état de l'art.
Il sera non seulement possible d'améliorer la traduction de la parole pour des paires de langues bien pourvues en données d'apprentissage, mais aussi d'accélérer le déploiement de systèmes de traduction visant à traiter des dialectes oraux.

Nguyen, H., Tomashenko, N., Boito, M. Z., Caubrière, A., Bougares, F., Rouvier, M., ... & Estève, Y. (2019). ON-TRAC Consortium End-to-End Speech Translation Systems for the IWSLT 2019 Shared Task. IWSLT 2019
Nguyen, H., Bougares, F., Tomashenko, N., & Estève, Y. (2020). Investigating self-supervised pre-training for end-to-end speech translation. Interspeech 2020
Elbayad, M., Nguyen, H., Bougares, F., Tomashenko, N., Caubrière, A., Lecouteux, B., ... & Besacier, L. (2020). ON-TRAC Consortium for End-to-End and Simultaneous Speech Translation Challenge Tasks at IWSLT 2020. IWSLT 2020
Dialogue history integration into end-to-end signal-to-concept spoken language understanding systems, Natalia Tomashenko, Christian Raymond, Antoine Caubrière, Renato De Mori, Yannick Estève, ICASSP 2020, May 2020, Barcelona, Spain
Error analysis applied to end-to-end spoken language understanding, Antoine Caubrière, Sahar Ghannay, Natalia Tomashenko, Renato De Mori, Antoine Laurent, Emmanuel Morin, Yannick Estève, ICASSP 2020, May 2020, Barcelona, Spain
A data efficient end-to-end spoken language understanding architecture,
Marco Dinarelli, Nikita Kapoor, Bassam Jabaian, Laurent Besacier, ICASSP 2020, May 2020, Barcelona, Spain

Le projet ON-TRAC propose de changer radicalement les architectures utilisées en traduction de parole actuellement. Il s'appuie sur les modèles neuronaux de type end-to-end pour la traduction automatique et vise plus particulièrement les applications légères et portatives de traduction de la parole qu'Airbus développe pour les opérations de sécurité sur les théâtres d'opération.

Au-delà de l'étude des approches end-to-end s'appuyant sur des couples de langue associés à des données d'apprentissage de taille conséquente, ON-TRAC étudiera le développement de modèles pour des langues orales ou dialectales peu dotées.
Une approche end-to-end de traduction de la parole telle que nous l'envisageons permettrait de revoir la méthodologie de collectes de données pour le développement d'un système de traduction de la parole.
En effet, avec cette approche, une transcription de la langue source devient inutile : le coût de production des données nécessaires à l'apprentissage d'un système de traduction de la parole est donc fortement réduit et le développement d'un tel système pour de nouvelles langues (y compris celles n'ayant pas de système d'écriture) serait facilité et accéléré.
Puisque le projet vise des applications portatives de traduction, ON-TRAC s'intéresse également à l'étude du temps de calcul et de l'empreinte mémoire nécessaires pour la traduction neuronale de la parole.
ON-TRAC permettra le traitement de trois paires de langues distinctes avec un intérêt opérationnel sécurité et défense et un niveau de difficulté croissants (anglais-français ; pashto-français ; tamacheq-français).

Le projet ON-TRAC s'inscrit dans l'axe 4 « Données, Connaissances, Big Data, Contenus multimédias, Intelligence Artificielle » du défi 7 « Société de l'information et de la communication » du plan d'action 2018 de l'ANR.
Par sa thématique scientifique principale dédiée à la traduction de la parole par des approches neuronales end-to-end, il se positionne clairement dans les thèmes ''Des données aux connaissances'' et ''Traitement des contenus multimedia''.

Les technologies développées dans le projet ON-TRAC seront expérimentées sur trois paires de langues, avec le français écrit comme langue cible systématique.
La première paire de langues étudiée sera l'anglais parlé vers le français écrit pour des raisons de simplicité et pour une meilleure perception des phénomènes se manifestant durant la traduction à travers l'analyse des sorties de nos systèmes, l'anglais étant suffisamment maîtrisé par l'ensemble des acteurs du projet.
La langue pashto sera la langue source de la seconde paire de langues. Ce choix est dicté par le fait que le traitement d'un dialecte oral entre dans les objectifs affichés du projet, et par le fait d'un coût de collecte minimisé puisque le consortium dispose déjà d'une centaine d'heures d'enregistrements audio en pashto, avec leurs traductions textuelles en français (ainsi que leur transcription en pashto).
Enfin, la troisième paire de langue aura pour langue source le tamacheq, dialecte oral parlé par les Touaregs dans différentes zones d'intérêt pour le renseignement et la sécurité (Sahel, Niger, Mali, Burkina Faso, Libye...). À ce titre, il revêt un intérêt fort et déjà exprimé par les services d'État concernés.

Coordinateur du projet

Monsieur Yannick Estève (Laboratoire Informatique d’Avignon)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LIA Laboratoire Informatique d’Avignon
LIUM LABORATOIRE D'INFORMATIQUE DE L'UNIVERSITE DU MANS (LIUM)
ADS AIRBUS DEFENCE AND SPACE SAS
UGA Université Grenoble Alpes

Aide de l'ANR 599 999 euros
Début et durée du projet scientifique : - 36 Mois

Liens utiles

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter