DS0704 - 2016

Analyser l'impossible, Traduire l'improbable – PARSITI

Résumé de soumission

Les médias sociaux et autres formes de communication en ligne ont
favorisé l'avènement de nouvelles formes d'écrits et l'accroissement
du volume de contenus multilingues. Les technologies nécessaires au
traitement des langues (TAL) doivent s'adapter à ce changement
sociétal. C'est l'objectif principal du projet ParSiTi.

L'une des évolutions sociétales les plus marquantes des médias sociaux
repose sur la façon dont ils influent sur notre perception des
événements. Par exemple, durant le printemps arabe, les utilisateurs
de Facebook étaient en première ligne sur le front de la guerre de
l'information. Plus récemment, lors des attentats de Paris en novembre
2015, le réseau Twitter a été utilisé non seulement pour récolter des
informations sur les victimes, mais aussi pour communiquer les offres
d'aides aux personnes touchées par les attaques. Ces deux événements
ont généré un flux d'interactions textuelles mondiales, et le manque
d'outils précis pour comprendre ces flux d'information n'en a été que
plus visible.

Les contenus générés par l'utilisateur (UGC), qui incluent réseaux
sociaux, blogs et forums de discussion, diffèrent du genre
journalistique (sur lequel sont développés les outils de TAL) sur 3
points :

- l'UGC est extrêmement diversifié, truffé d'abréviations, de fautes
d'orthographe ou typographiques et d'erreurs grammaticales. Il y
manque des ponctuations et de nombreux textes mélangent les
langues. Dans certains cas, l'orthographe ressemble plus à une
phonétisation. Ajoutés à une variabilité très riche, ces
phénomènes nuisent aux performances des chaînes de TAL.

- Les réseaux sont maintenant multilingues, et non simplement
anglophones.

- Une forte contextualisation, en raison de la nature de ces médias,
encourage les phrases courtes et les messages enchâssés, favorisant
ainsi le recours massif aux ellipses. Tout ceci conduit à de fortes
ambiguïtés, et complique considérablement les traitements
ultérieurs. D'autre part, ces productions sont souvent adossées à des
contenus multimédias.

ParSiTi vise à tirer profit des récents progrès en TAL et en
apprentissage artificiel pour répondre aux défis posés par les les UGC
multilingues, et à en améliorer l'accès. Nous prévoyons de mettre en
oeuvre une chaîne complète de TAL capable de traiter du texte UGC en
contexte. Pour mettre en valeur les avantages de notre approche, nous
développerons un système de traduction automatique de haut niveau
capable de traduire des UGC entre français, anglais et arabe. Ce
système sera utile aussi bien aux chercheurs en linguistique et en
sciences sociales qu'aux utilisateurs industriels. De plus, ce système
et les données associées seront disponibles librement, pour faciliter
la mise en oeuvre d'autres prototypes, par exemple pour l'extraction
d'information et la fouille d'opinion. Le développement d'une telle
chaîne exige de dépasser les techniques existantes, parfois au prix de
la remise en cause d'hypothèses jusque là communément admises.

Le développement d'une telle chaîne pose une série de défis et exige
de dépasser les techniques existantes, parfois au prix d'une remise en
cause d'hypothèses jusque là communément admises. ParSiTi répondra à
trois défis scientifiques de complexités croissantes : (i) la
normalisation des UGC et leur adaptation pour l'analyse syntaxique et
la traduction automatiques, (ii) le développement de modèles joints
combinant plusieurs traitements sans propagation d'erreurs, (iii) le
design de modèles contextuels capables de traiter les discussions
dans un contexte spécifique, aussi bien textuel
(e.g. commentaires dans un fil de discussion) qu'extra-linguistiques
(e.g. URLs ou images)

ParSiTi réunira le LIMSI pour son expertise en traduction automatique
et apprentissage artificiel, le LIPN pour son expertise sur les
modèles joints semi-supervisés et l'analyse syntaxique, et Alpage pour
son expertise en traitement morpho-syntaxique des médias sociaux, en
analyse syntaxique, et en adaptation hors-domaine.

Djamé Seddah (Institut National de Recherche en Informatique et en Automatique)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LIPN Laboratoire d'Informatique de Paris-Nord
Inria de Paris Institut National de Recherche en Informatique et en Automatique
LIMSI Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur

Aide de l'ANR 499 573 euros
Début et durée du projet scientifique : octobre 2016 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.