CHIST-ERA - 2nd appel à projets de l’ERA-Net CHIST-ERA

Évaluation et développement de systèmes d'analyse et de compréhension de textes – Readers

Résumé de soumission

Le projet propose de nouveaux modèles informatiques non supervisés pour l'extraction automatique de connaissances à partir de l'analyse de gros volumes de textes non structurés. Les connaissances sont extraites automatiquement sous forme de classes de concepts, d'entités catégorisées et de prédicats, dont les arguments sont typés à travers les probabilités de distribution dans les classes. Les classes elles-mêmes seront automatiquement organisées dans des taxonomies relatives aux prédicats. De telle sorte que de nouvelles méthodes et de nouveaux modèles basés sur les définitions extensives des concepts seront développés afin de créer des bases de connaissance autorisant la restitution des résultats de l'analyse textuelle et permettant des mécanismes d'inférence. Les bases de connaissance extraites seront reliées à des bases de connaissance créées par des humains, comme Freebase, DBPedia ou WordNet, et ces bases de connaissance seront seront interfacées à différents modules pour la désambiguïsation lexicale et sémantique, l'extraction de relations, la dépendance, l'hyperonymie-hyponymie, la méronymie, etc. Toutes ces ressources et outils seront intégrés dans le moteur de compréhension de texte (Machine Reading System) comme partie intégrante du projet. Au final, ce moteur doit être capable de répondre à des questions portant sur un texte donné. Sachant que les textes ne sont jamais auto-interprétables (c'est-à-dire suffisants pour répondre à des questions) et demandent toujours des connaissances externes pour être interprétés et compris, le système de compréhension de texte, objet de ce projet, nécessite donc l'utilisation de larges base de connaissances pour la compréhension d'un texte donné. Cette technologie de compréhension de texte sera évaluée à travers une application spécifique : la compréhension de texte via un ensemble de QCM. Le système doit être capable de répondre aux QCM portant sur un texte avec un bon taux de succès. En but ultime, le système doit pouvoir générer des QCM à partir de l'analyse d'un texte, avec un degré de difficulté lié à l'utilisateur, ce que le partenaire industriel, Synapse Développement, prendra en charge comme applicatif (questions posées à partir d'un texte et vérification des réponses, test a priori destinés à des enfants). L'évaluation doit permettre de disposer au final de bancs de tests réutilisables par la communauté.
Ce système de compréhension de texte sera développé, au minimum, pour le français et pour l'anglais. La prise en charge et la coordination d'une campagne d'évaluation internationale des systèmes de compréhension de texte dans différentes langues (anglais, espagnol, français, allemand, italien, roumain, bulgare et arabe) fait partie intégrante du projet. Cette campagne d'évaluation doit permettre de mesurer les progrès de la technologie développée dans le cadre du projet, dans un contexte compétitif et comparatif.

Coordination du projet

Peñas ANSELMO (Universidad Nacional de Educación a Distancia) – eranet_anselmo@lsi.uned.es

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

UPV/EHU Universidad del Pais Vasco
SYN Synapse Développement
U.E. University of Edinburgh
UNED Universidad Nacional de Educación a Distancia

Aide de l'ANR 232 138 euros
Début et durée du projet scientifique : octobre 2012 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter