ChairesIA_2019_2 - Chaires de recherche et d'enseignement en Intelligence Artificielle - vague 2 de l'édition 2019

Modéliser et extraire des informations complexes du texte en langage naturel – NoRDF

NoRDF: Extraction et modélisation d'informations complexes du texte

La chaire NoRDF est un projet scientifique à l’école d’ingénieurs Télécom Paris qui vise à modéliser et extraire des informations complexes à partir d’un texte en langage naturel.

Objectifs

Nous voulons enrichir les bases de connaissances avec des événements, des causes, des conditions, des préséances, des histoires, des négations et des croyances. En particulier, nous étudierons l’expression du sentiment.<br /><br />Nous voulons extraire ce type d’informations à grande échelle à partir de sources structurées et non structurées, et nous voulons permettre aux machines de raisonner dessus. Le projet rassemble des recherches sur la représentation des connaissances, sur le raisonnement et sur l’extraction d’informations, et se veut utile pour des applications telles que la détection des “fake news”, la modélisation de controverses ou l’analyse de l’e-réputation d’une entreprise.

Méthodes

Pour permettre à une machine de comprendre un texte en langage naturel, nous utilisons à la fois des méthodes neuronales et symboliques. Nous utilisons l'apprentissage en profondeur pour juger si deux phrases se contredisent, le raisonnement logique pour tirer des conclusions de ces contradictions, l'analyse sémantique pour représenter le sens des phrases et un nouveau formalisme pour raisonner sur des phrases imbriquées.

Résultats

Jusqu'à présent, nous avons produit principalement des enquêtes sur l'état de l'art. Nos propres techniques sont en cours de soumission.

Perspectives

Nous développons les composants individuels (formalisme de raisonnement, représentation du sens, extraction d'informations), et nous espérons pouvoir les assembler d'ici la fin du projet.

Productions scientifiques et brevets

Nous avons d'abord produit des enquêtes approfondies sur l'état de l'art dans tous les domaines pertinents pour le projet :
• Dans « Combining Embeddings and Rules for Fact Prediction » (document didactique AIB 2022), nous passons en revue les approches qui combinent des méthodes symboliques et logiques pour prédire des faits dans des bases de connaissances.
• Dans «Reasoning with Transformer-based Models: Deep Learning, but Shallow Reasoning« (article complet AKBC 2021), nous analysons systématiquement les limites des modèles actuels de type BERT en matière de raisonnement.
• Dans « The Vagueness of Vagueness in Noun Phrases » (article complet AKBC 2021), nous étudions les types, la fréquence et la nature des phrases nominales vagues. Nous examinons également les approches actuelles pour traiter de telles phrases.
• Dans « Entités non nommées - la majorité silencieuse » (article court de l'ESWC 2021), nous effectuons la même analyse pour les entités non nommées.
• Dans «Extracting Complex Information from Natural Language Text: A Survey« (atelier de journalisme sémantique au CIKM 2020), nous examinons les approches pour extraire des croyances, des hypothèses, etc. à partir d'un texte en langage naturel.
• Dans « The Need to Move Beyond Triples » (atelier Text2Story à l'ECIR 2020), nous passons en revue les approches d'extraction d'informations complexes ainsi que les approches de modélisation de ces informations et de raisonnement sur celles-ci.
• Dans «Machine Knowledge : Creation and Curation of Comprehensive Knowledge Bases« (Foundations and Trends in Databases 2021), nous passons en revue toutes les principales méthodes actuelles d'extraction d'informations sur 250 pages
• Une enquête sur les différentes méthodes de raisonnement est en préparation, avec 180 travaux recensés à ce jour.
• Une enquête sur les mesures de qualité des histoires générées automatiquement a été soumise à COLING 2022
• Une enquête sur les approches d'analyse sémantique a également été soumise à COLING 2022

Nous avons ensuite fait les premiers pas dans l'extraction d'informations complexes et le raisonnement sur ces informations :
• Dans «Imputing Out-of-Vocabulary Embedding with LOVE Makes Language Models Robust with Little Cost« (ACL 2022), nous développons une méthode pour rendre les modèles de langage tels que BERT robustes aux fautes d'orthographe, aux mots de jargon ou aux mots inconnus.
• Un travail sur la désambiguïsation des acronymes dans les textes en langage naturel a été soumis à EMNLP 2022
• Un travail sur l'inférence textuelle avec négation a également été soumis à EMNLP 2022

Résumé de soumission

Les bases de connaissances sont devenues indispensables dans les applications d'IA modernes telles que le question answering, des assistants personnels ou la lutte contre les fake news. Cependant, les grandes bases de connaissances d'aujourd'hui sont limitées dans leur connaissance aux simples faits RDF binaires entre un sujet et un objet. Cela cache une grande partie des informations qui sont importantes pour les humains, et réduit l'utilité de ces bases de connaissances. Avec notre proposition, nous nous efforçons d’élargir la représentation actuelle des connaissances au-delà de RDF et de la remplir de faits significatifs et multiformes à grande échelle. Nous visons les déclarations négatives, les croyances, les relations de cause à effet et, plus généralement, les déclarations à propos d'autres déclarations. Les applications de ce nouveau type de bases de connaissances comprennent les chatbots plus intelligents, une analyse sémantique de la e-réputation, une compréhension automatique des controverses et la lutte contre les fausses informations.

Fabian Suchanek (Institut Mines-Télécom)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LTCI - Télécom Paris Institut Mines-Télécom

Aide de l'ANR 441 720 euros
Début et durée du projet scientifique : août 2020 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.