TSIA - Giga-modèles - Thématiques Spécifiques en Intelligence Artificielle (Giga-modèles pour le traitement automatique du langage naturel et des données multimodales) 2023

Traduire avec les Large Language Models – TRaLaLaM

Résumé de soumission

En l’espace de six courtes années (2017-2023), le domaine du traitement des langues (TAL) a été profondément transformé par les avancées des architectures neuronales génériques, qui sont à la fois utilisées pour apprendre des représentations profondes pour les unités linguistiques et pour générer du contenu textuel de haute qualité. Ces architectures sont aujourd’hui omniprésentes dans les applications de TAL ; entraînés à grande échelle, ces “grands modèles de langue” (LLM) offrent de multiples services (résumé, aide à la rédaction, traduction) dans un unique modèle grâce à des conversations presque naturelles et des techniques d’amorçage (prompting).
Ce projet vise à analyser cette nouvelle situation du point de vue de la traduction automatique (TA) et à étudier deux questions principales : (a) les techniques d’amorçage permettent d’injecter facilement divers types d’informations susceptibles d’aider un système de traduction automatique à tenir compte du contexte, par exemple pour s’adapter à un domaine, à un genre, à un style, à la mémoire de traduction d’un client, aux compétences linguistiques du lecteur, etc. L’amorçage est-il également efficace dans toutes ces situations, à condition que de bonnes instructions puissent être construites, ou bien est-il illusoire d’espérer des améliorations sans un affinage (fine-tuning) du modèle ? (b) comme les LLM peuvent être entraînés sans données parallèles, ils ouvrent la perspective d’une amélioration de la TA pour des domaines, styles et paires de langues pour lesquelles de telles ressources sont rares, voire inexistantes. Cette promesse peut-elle être tenue, en particulier pour les dialectes ou les langues régionales à faibles ressources ? Pour répondre à ces deux questions, le projet TraLaLaM va également (a) collecter des données pour les langues peu dotées et les utiliser pour étendre les LLM existants, (b) développer de nouveaux corpus de test et des stratégies d’évaluation associées.

Josep CREGO (SYSTRAN)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

ISIR Institut des Systèmes Intelligents et de Robotique
SYSTRAN
INRIA Paris Centre de Recherche Inria de Paris

Aide de l'ANR 595 348 euros
Début et durée du projet scientifique : septembre 2023 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.