BLANC - Blanc

Outils de traitement d'information multimodale – OTIM

Résumé de soumission

L'analyse de la multimodalité est aujourd'hui une préoccupation centrale en linguistique et en informatique pour des raisons théoriques et appliquées : description de l'interaction verbale, dialogue homme-machine, réalité virtuelle, etc. Du point de vue linguistique, l'analyse du langage et de la parole intègre l'étude domaines variés comme la phonétique, la phonologie, la syntaxe, la sémantique ou la pragmatique et les gestes. Ces domaines sont généralement étudiés séparément ou dans leurs relations avec les domaines jugés proches (p. ex. syntaxe-sémantique, prosodie-syntaxe, etc.). Le point de vue adopté par la linguistique moderne est beaucoup plus général : si chacun des domaines évoqués dispose d'une certain niveau d'autonomie, il ne peut être expliqué que dans son interaction avec l'ensemble des autres domaines. L'analyse linguistique doit donc tenir compte des différentes modalités d'expression de l'information. Nous sommes cependant confrontés dans ce domaine à un manque de connaissances tant du côté des données empiriques que du côté des outils théoriques. La réduction de ce manque passe par la description de données qui illustrent les interactions particulières entre les différents domaines et modalités (interactions parole-gestes-syntaxe dans la description des déictiques, interactions sémantique-pragmatique-prosodie dans la description des constructions non déclaratives, etc.). De telles descriptions ne peuvent être menées qu'à l'aide de corpus annotés, dans lesquels toutes ces informations sont décrites. Cependant, si les besoins sont grands, les ressources multimodales de haut niveau et les méthodes pour les constituer et les valider sont très partielles. Il faut souligner le fait qu'il n'existe pas aujourd'hui de corpus multimodal annoté pour le français, ils sont très rares et très incomplets pour l'anglais. Les projets en cours, y compris du point de vue international, sont presque toujours focalisés sur une modalité principale complétée éventuellement d'une modalité secondaire. De plus, les normes et standards d'encodage proposés dans ce domaine restent également très incomplets et ne couvrent pas la totalité des besoins en termes d'annotation des ressources multimodales. Enfin, les outils existants dans le domaine de l'aide à l'annotation, la manipulation et l'interrogation de données en sont à un stade très préliminaire. Ce projet a donc un objectif à la fois linguistique et technologique et se propose d'aborder ces problèmes en traitant les questions suivantes : • Création d'un format d'encodage multimodal générique • Spécification d'une chaîne de traitement : définition des étapes, recommandations, outils d'aide • Création et exploitation d'un outil de requête sur le format créé • Création de nouvelles ressources annotées dans le format spécifié Le premier problème est celui de la détermination d'une norme d'encodage permettant de répondre aux besoins de chaque domaine, de la phonétique à la pragmatique en passant par la syntaxe. Tout en se situant dans le contexte des standards d'encodage déjà proposés, nous spécifierons un schéma d'encodage répondant aux besoins de l'annotation multimodale. Une fois la norme d'encodage établie, nous nous engagerons dans le développement de la plateforme d'annotation. Nous proposons pour cela quand c'est possible d'adapter les outils d'analyse existants, en particulier les outils développés par les équipes partenaires (édition de signal, étiquetage automatique, analyseurs syntaxiques, etc.) à la production de sorties respectant ces normes. Les autres outils seront développés totalement dans le cadre du projet. Parallèlement à ces outils d'aide à l'annotation, nous proposons de développer des outils de manipulation et de traitement de données adaptés à nos besoins en même temps qu'un système de requête. L'ambition de ce projet est donc de rassembler au sein d'une même plateforme d'une part une base de ressources brutes et enrichies pour la description du français et d'aut

Coordination du projet

Philippe BLACHE (Organisme de recherche)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Aide de l'ANR 310 000 euros
Début et durée du projet scientifique : - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter