MEmoire de Traduction, Recherche d'Information et Corpus Comparables – MeTRICC
Dans le cadre de ce projet, nous proposons d'exploiter les possibilités offertes par les corpus comparables dans le cadre de trois applications industrielles concrètes : les mémoires de traduction, la recherche d'informations interlingue et la catégorisation multilingue. Depuis des décennies, les méthodes utilisées pour la constitution de lexiques bilingues reposent sur des corpus parallèles (traductions). Or, ces corpus sont très difficiles à trouver ou à constituer dans un domaine précis, rendant inutilisables les méthodes en question dans beaucoup de cas. Les corpus comparables (partageant un vocabulaire significatif) constituent un défi majeur pour toutes les disciplines confrontées aux problèmes du multilinguisme et il est temps d'appliquer les méthodes actuelles, à un contexte industriel. Nous pensons que l'avenir des technologies du multilinguisme aux trois applications visées par ce projet passe nécessairement par la constitution et l'analyse de corpus comparables. Ce projet de recherche industrielle est découpé en 6 tâche principales : Définition des besoins et des formats d'échange, Construction de corpus comparables, Extraction de lexiques, Application à la mémoire de traduction, Application à la recherche d'informations interlingue et à la catégorisation, Dissémination. Les partenaires sont 3 laboratoires publics, le LINA (leader), le LIG et le VALORIA et 3 industriels, Lingua et Machina, Sinequa et Syllabs.
Coordination du projet
Université
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
Aide de l'ANR 1 078 920 euros
Début et durée du projet scientifique :
- 36 Mois