Blanc SIMI 2 - Blanc - SIMI 2 - Science informatique et applications

Exploitation du contexte pour la reconnaissance de noms propres dans les documents diachroniques audio – ContNomina

Exploitation du contexte pour la reconnaissance de noms propres dans les documents diachroniques audio

La tâche 2 dédiée à la modélisation du contexte, et aux liens entre vocabulaire (en particulier noms propres) et contextes.

La tâche 3 dédiée à la contextualisation de la reconnaissance de la parole, c'est-à-dire à la prise en compte des estimations de contexte dans le décodage, et à l'augmentation associée des lexiques et des modèles de langage.

Résultats

en cours

Perspectives

en cours

Productions scientifiques et brevets

D. Fohr, O. Mella «Combination of Random Indexing based Language Model and N-gram Language Model for Speech recognition«, Interspeech 2013
A. Lorenzo, C. Cerisara « Weakly supervised joint SRL and Dependency Parsing » soumis à l'EMNLP 2013

Résumé de soumission

Les technologies impliquées dans la recherche d’informations dans de grandes bases de données audio/vidéo reposent le plus souvent sur l'analyse de grands corpus fermés et sur des techniques d'apprentissage automatique et de modélisation statistique du langage écrit ou oral. L'efficacité de ces approches est maintenant unanimement reconnue mais elles présentent néanmoins des défauts majeurs, en particulier pour la prise en charge des néologismes et des noms propres, deux types d'entrées qui sont cruciales pour l'interprétation des contenus mais qu'il est extrêmement difficile de modéliser par une analyse sur des corpus fermés.
Dans le cadre des données diachroniques (qui évoluent dans le temps) de nouveaux noms propres apparaissent continuellement ce qui nécessite de gérer dynamiquement les lexiques et modèles de langage utilisés par le système de reconnaissance de la parole.
En conséquence, le projet ContNomina se concentre sur le problème des noms propres dans les systèmes de traitement automatique des contenus audio en exploitant au mieux le contexte des documents traités. Pour ce faire, le projet s’intéressera
· à la modélisation statistique des contextes et des liens entre contextes et noms propres ;
· à la contextualisation de la reconnaissance à travers l’ajustement dynamique du lexique et du modèle de langage, de manière à les rendre plus précis, et surtout plus pertinents du point de vue de la couverture lexicale, en particulier en ce qui concerne les noms propres ;
· à la détection des noms propres, d’une part dans les documents textuels pour la constitution de liste de noms propres, d’autre part dans les sorties du système de reconnaissance pour identifier les noms propres prononcés dans les documents audio/vidéo.
Les ressources développées lors de ce projet seront accessibles à la communauté scientifique. Il s’agira d’un lexique de noms propres phonétisés (actuellement un tel lexique n’est pas disponible en Français) et d’annotations d’un corpus audio/vidéo.
Un démonstrateur WEB sera mis en œuvre pour valider les avancées développées dans le cadre du projet.

Irina ILLINA (LABORATOIRE LORRAIN DE RECHERCHE EN INFORMATIQUE ET SES APPLICATIONS) – illina@loria.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LORIA LABORATOIRE LORRAIN DE RECHERCHE EN INFORMATIQUE ET SES APPLICATIONS
LIA LIA

Aide de l'ANR 317 117 euros
Début et durée du projet scientifique : janvier 2013 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.