CE23 - Intelligence artificielle et science des données

Extraction de Connaissances LAtentes dans les Documents par une Analyse conjointe des Textes et des TAbles – ECLADATTA

Résumé de soumission

Identifier, extraire, structurer et stocker des connaissances sont des tâches majeures. Elles constituent des défis importants pour les organisations, en partie à cause de la dispersion des connaissances au sein de différents types de sources (e.g. bases de données, feuilles de calcul, documents textuels) et leur représentation hétérogène. Par exemple, un grand nombre de répertoires de données au sein des entreprises ou des portails Open Data prennent la forme de données tabulaires (feuilles de calcul) tandis que les rapports PDF ou les pages Web mélangent fréquemment textes et tables. Il est donc nécessaire de structurer et réconcilier ces connaissances éparses, par exemple via leur extraction automatique pour construire et raffiner des graphes de connaissances (GCs). Ce processus permet une correction et une complétion mutuelles entre textes, tables et GCs. Il est intéressant de noter que textes et tables peuvent être liés au sein d’un même document ou dans plusieurs documents et se compléter mutuellement, une complémentarité peu utilisée jusqu'à présent. Le projet ECLADATTA vise à tirer parti de cette complémentarité entre tables, textes et GCs pour proposer un processus capable de construire des corpus de textes et tables apparentés, et d’effectuer l'extraction conjointe des connaissances et leur réconciliation pour enrichir ou mettre à jour un GC. Un tel processus soulève plusieurs challenges qui seront abordés par ECLADATTA. Par exemple, l'évaluation de l’association entre GCs, textes et tables nécessite de délimiter la portion de texte exacte associée à une table et de comparer des informations atomiques en tenant compte de leur validité temporelle ou des agrégats (e.g. moyennes, sommes). Ce processus sera évalué sur des collections de documents publics collectés sur le web (e.g. projets Wikimédia comme Wikipédia, avec l'ambition de considérer de grands corpus tels que le Common Crawl) pour enrichir des GCs publics comme Wikidata.

Coordination du projet

Yoan Chabot (ORANGE SA)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

EURECOM EURECOM
Orange ORANGE SA
IRIT Université Toulouse 3 - Paul Sabatier

Aide de l'ANR 601 637 euros
Début et durée du projet scientifique : janvier 2023 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter