CE23 - Intelligence artificielle et science des données 2025

Découvrir et exploiter les lacs de données hétérogènes par les graphes de données – TopOL

Résumé de soumission

Les journalistes doivent souvent analyser des quantités massives de données
numériques, par exemple, des dizaines de milliers de fichiers (textes, feuilles de
calcul, etc.), pour comprendre ce que contiennent les données et en tirer des
enseignements (comme pour les Paradise Papers). Actuellement, plusieurs
systèmes doivent être utilisés, et les techniques de l’état de l’art sont spécifiques à
un seul modèle de données. L'exploitation de plusieurs jeux de données soulève des
problèmes d'extraction d'information et de passage à l'échelle. Le projet TopOL (Top
of the lake) vise à aider ces utilisateurs sans compétences techniques à explorer et
analyser un grand nombre de jeux de données hétérogènes. En répondant à des
requêtes en langage naturel, TopOL renverra des entités (des objets complexes et
structurés), avec leurs relations, en reflétant les intérêts de l'utilisateur. Nous
utiliserons des graphes au niveau conceptuel et logique, ainsi que de l'extraction
d'information basée sur des modèles de langage, pour montrer les données sous
forme d'entités et de relations. Lors de l'ingestion dans le lac de données, les jeux de
données seront automatiquement profilés, organisés et regroupés en fonction des
connexions et de leurs similitudes. A l'exploration, les entités et les relations seront
récupérées à partir des sources du lac de données et classées en fonction des
intérêts de l'utilisateur. Des étapes d'exploration seront recommandées : parcourir
une relation, élargir ou restreindre un ensemble d'entités, montrer des motifs
inattendus dans les données, etc. Nous mettrons en place un cluster pour héberger
les jeux de données et tester nos algorithmes, et aborderons les problèmes de
passage à l'échelle. Les cas d'utilisation viseront les journalistes. Le Consortium
international des journalistes d'investigation accepte de partager avec nous certains
jeux de données. Le résultat de TopOL comprendra du code et des modèles ouverts,
ainsi que des jeux de données.

Coordination du projet

Ioana Manolescu (INSTITUT NATIONAL DE LA RECHERCHE EN INFORMATIQUE ET AUTOMATIQUE)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

CEDAR INSTITUT NATIONAL DE LA RECHERCHE EN INFORMATIQUE ET AUTOMATIQUE
LIFAT UNIVERSITÉ DE TOURS
LISN Laboratoire Interdisciplinaire des Sciences du Numérique
LIFO UNIVERSITÉ ORLÉANS
LAMSADE UNIVERSITÉ PARIS DAUPHINE

Aide de l'ANR 1 007 697 euros
Début et durée du projet scientifique : décembre 2025 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter