CE23 - Données, Connaissances, Big data, Contenus multimédias, Intelligence Artificielle

Inférence efficace des programmes de nettoyage à partir des annotations de données – InfClean

Inférence efficace des programmes de nettoyage à partir des annotations de données

Pour la prise de décision, nous avons besoin de données qui ont été traitées à partir de son état brut d'origine, sous une forme «curated«, un processus appelé « nettoyage des données ». Dans ce processus, les experts du domaine collectent des spécifications. Les spécifications sont ensuite codées dans des programmes à exécuter sur les données brutes pour corriger les erreurs. Ce processus est coûteux et ne fournit aucune garantie formelle sur la qualité ultime des données.

Un cadre formel qui réduit l'effort humain de nettoyage des données

L'objectif d'InfClean est de repenser le domaine du nettoyage des données avec un cadre formel inclusif qui réduit radicalement l'effort humain de nettoyage des données.<br />Comme décrit dans la proposition originale, le projet est exécuté selon trois directions de recherche:<br />1. Poser les bases théoriques de la synthèse des spécifications directement avec les experts du domaine;<br />2. Concevoir et mettre en œuvre de nouvelles techniques automatisées qui utilisent des informations externes pour identifier et réparer les erreurs de données;<br />3. Modéliser le processus de nettoyage interactif avec un cadre d'optimisation de principe garantissant les exigences de qualité.

Nous utilisons différentes approches pour le nettoyage des données. Les deux méthodes principales sont basées sur une logique de premier ordre pour les règles déclaratives et sur un apprentissage en profondeur pour obtenir des représentations de données à partir des données elles-mêmes.
Plus précisément, nous avons présenté un algorithme et un système d'exploration de règles déclaratives sur des graphes de connaissances. Nous découvrons des règles exprimant à la fois des relations positives entre les éléments, par exemple, «si deux personnes partagent au moins un parent, elles sont probablement des frères et sœurs», et des modèles négatifs identifiant des contradictions de données, par exemple, «si deux personnes sont mariées, on ne peut pas être le l'enfant de l'autre ». Alors que le premier type de règles identifie de nouveaux faits dans le KG, le second type permet la détection de triplets incorrects et la génération d'exemples négatifs (d'apprentissage) pour l'apprentissage d'algorithmes.
Pour apprendre les «embeddings« locales pour les données relationnelles, nous utilisons une approche en deux étapes. Dans la première étape, nous exploitons une représentation graphique des ensembles de données relationnelles qui représentent les relations syntaxiques et sémantiques entre les valeurs de cellule. Nous utilisons des nœuds Token pour des valeurs uniques dans l'ensemble de données; Enregistrez les ID pour les tuples et les ID de colonne pour les attributs. Ce graphique compact met en évidence le chevauchement et représente explicitement les primitives pour les tâches d'intégration de données. Dans la deuxième phase, nous formulons le problème de l'obtention de plongements locaux comme un problème de génération de embeddings de graphes. Nous utilisons des marches aléatoires pour quantifier la similitude entre les nœuds voisins et pour exploiter les métadonnées. Cela garantit que les nœuds partageant des quartiers similaires sont à proximité dans l'espace final.

Pour la première direction, notre résultat principal est un cadre homogène de nettoyage des données basé sur le deep learning. La solution, présentée dans un article SIGMOD 2020, montre comment créer des embeddings pour des ensembles de données relationnelles de manière totalement non supervisée. Ces imbrications peuvent ensuite être utilisées pour plusieurs tâches d'intégration et de nettoyage de données. Les résultats montrent que les nouveaux embeddings peuvent être utilisés à la fois dans des approches supervisées et supervisées avec des performances qui dépassent l'état de l'art.
Pour la deuxième direction, nous avons introduit plusieurs algorithmes visant à augmenter l'automatisation du processus de nettoyage. Nos contributions incluent le modèle qui représente et intègrent naturellement ces informations (l'article SIGMOD 2020), un algorithme pour extraire les règles logiques des données (article JDIQ 2019) et un système qui combine des règles et des preuves Web pour valider les faits de manière explicable (Article TTO 2019). Pour cette dernière tâche, nous avons également développé un référentiel pour l'évaluation systématique des résultats du système (article CIKM 2019 et démo VLDB 2020). Des algorithmes de réparation de données ont également été publiés dans un VLDB Journal avec des collaborateurs externes.
Pour la troisième direction, nous avons commencé à étudier le problème de l'identification de bons exemples à vérifier par les utilisateurs. Notre effort initial s'est concentré sur les données de séries chronologiques en collaboration avec une start-up française. Ce travail a abouti à un brevet et à un article dans ICDE 2020.

Pour l'avenir, nous prévoyons de continuer à travailler sur les deuxième et troisième directions en concentrant notre attention sur les possibilités offertes par les récents progrès de l'apprentissage profond. Nous pensons que les architectures récentes, telles que les transformateurs (Bert, XLM), peuvent être utilisées efficacement pour résoudre les tâches de nettoyage des données. Cependant, il existe plusieurs questions ouvertes sur la manière d'intégrer des informations de domaine externe, telles que des règles logiques, dans ces solutions et nous visons à apporter des contributions dans ce sens.

- N. Ahmadi, P. Huynh, V. Meduri, P. Papotti, S. Ortona.
Mining Expressive Rules in Knowledge Graphs.
Journal of Data and Information Quality (JDIQ), 2020.

- F. Geerts, G. Mecca, P. Papotti, D. Santoro,
Cleaning data with Llunatic.
VLDB Journal, 2019.

- R. Cappuzzo, P. Papotti, S. Thirumuruganathan
Creating Embeddings of Heterogeneous Relational Datasets for Data Integration Tasks.
In SIGMOD, 2020.

- P. Huynh, P. Papotti.
A Benchmark for Fact Checking Algorithms Built on Knowledge Bases.
CIKM, 2019.

- P. Huynh, P. Papotti.
Buckle: Evaluating Fact Checking Algorithms Built on Knowledge Bases.
VLDB (demo), 2019.

- N. Ahmadi, J. Lee, P. Papotti, M. Saeed.
Explainable Fact Checking with Probabilistic Answer Set Programming.
Conference for Truth and Trust Online (TTO), 2019.

Nos principaux résultats ont été diffusés dans les documents techniques mentionnés ci-dessus (et les présentations relatives aux conférences), sous forme de référentiels de code, de conférences invitées et de keynotes (Webinaire IMT, conférence au QCRI et Telecom Paris, conférence invitée à DEXA 2020), et dans les activités en ligne (LinkedIn et Twitter).

Cette proposition répond à un important besoin des applications de science des données: en plus des modèles fiables de prise de décision actuellement disponibles, nous avons besoin de méthodes de traitement permettant d'identifier et de corriger le bruit présent dans les données brutes, un processus appelé «nettoyage de données». Dans ce processus, les ingénieurs chargés de la gestion des données collaborent avec les experts du domaine afin de collecter des spécifications, telles que des règles métier relatifs aux salaires, des contraintes physiques régissant les interactions moléculaires ou des données d'entraînement représentatives. Les spécifications sont ensuite codées dans des programmes de nettoyage qui sont appliqués sur des données brutes pour identifier et corriger les erreurs présentes. Ce processus centré sur l'humain est coûteux, et étant donné la grande quantité de données manipulée dans de tels projets, il est effectué de manière approximative, sans garantie formelle sur la qualité finale des données.
Le but d'InfClean est de repenser le domaine du nettoyage des données en partant de ses hypothèses et en fournissant cadre formel et inclusif réduisant radicalement l'effort humain requis dans le nettoyage des données. Cela sera réalisé en trois étapes:
(1) en posant les bases théoriques des spécifications directement avec les experts du domaine;
(2) en concevant et en mettant en œuvre de nouvelles techniques automatisées qui utilisent des informations externes pour identifier et réparer les erreurs de données;
(3) en modélisant le processus de nettoyage interactif avec un cadre d'optimisation raisonné qui garantit les exigences de qualité.

Le projet établira des bases solides pour le nettoyage de données, permettant un cadre formel de synthèse des spécifications, des algorithmes pour une automatisation accrue, et un optimiseur de principes avec des garanties de qualité pour l'interaction avec l'utilisateur. Il permettra aussi d'accélérer la découverte de l'information, et renforcera les avantages économiques découlant d'un processus de décision rapide, bien informé et fiable. Pour fournir le contexte approprié permettant d'évaluer ces nouvelles techniques et mettre en évidence l'impact du projet dans différents domaines, InfClean prévoit d'atteindre ses objectifs en utilisant des études de cas réels de différents domaines, y compris des données sur la santé et la biodiversité.

Coordination du projet

Paolo Papotti (EURECOM)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

EURECOM EURECOM

Aide de l'ANR 213 320 euros
Début et durée du projet scientifique : - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter