CE40 - Mathématiques, informatique théorique, automatique et traitement du signal

Calcul efficace de requêtes sur des données incomplètes ou incohérentes – QUID

Résumé de soumission

Les systèmes de gestion de bases de données actuels sont confrontés à des volumes de données massifs, issus de l'intégration de plusieurs sources hétérogènes, et pouvant contenir de ce fait de nombreuses informations manquantes, incohérentes ou redondantes. De plus, les données ne sont généralement pas accessibles dans leur intégralité, soit pour garantir la confidentialité du système, soit plus simplement en raison de leur taille titanesque. Dans ce contexte, les erreurs et les fuites de données sont autant d'écueils à éviter.

De ce fait, il devient crucial de développer des systèmes efficaces qui garantissent à la fois plus de fiabilité et de sécurité et plus de pertinence dans les réponses aux requêtes des utilisateurs.

Notre projet vise à perfectionner les possibilités des systèmes de gestion de bases de données actuels afin de mieux répondre aux attentes des utilisateurs. Nous proposons de développer des méthodes formelles pour étudier les protocoles de gestions de données et de développer des algorithmes efficaces pour extraire les informations pertinentes. Ces méthodes permettront d'exploiter efficacement des données incohérentes ou incomplètes tout en permettant un contrôle d'accès plus sûr aux données privées ou sensibles.

Notre programme de recherche s'articule principalement autour de trois scénarios distincts mais interconnectés. Dans le premier, seule une vue partielle de la base de données est accessible, et l'enjeu est de comprendre quelles sont les informations potentiellement sensibles qu'il est possible d'en extraire. Le deuxième scénario concerne la réparation des données incohérentes et le développement d'algorithmes efficaces pour en extraire des réponses pertinentes. Dans le troisième scénario, nous visons cette fois-ci à fournir des méthodes pour répondre efficacement aux requêtes des utilisateurs sur des données incomplètes.

Bien qu'assez spécifiques, ces trois scénarios ont un aspect essentiel en commun. Dans chacun, bien que la base de données ne soit pas connue dans son intégralité, il faut néanmoins répondre avec certitude aux requêtes des utilisateurs, et ce tout en garantissant la sécurité du système. De nombreuses études ont montré que la principale difficulté à surmonter pour trouver les bonnes solutions réside dans la notion de certitude. Malgré cela, nous ne disposons toujours pas aujourd'hui de méthodes efficaces et applicables pour résoudre les trois scénarios considérés. Développer ces méthodes constitue donc l'objectif principal de ce projet.

De plus, des travaux récents ont indépendamment montré que le calcul des réponses certaines à une requête est intimement lié aux problèmes de satisfaction de contraintes (CSP), un domaine de recherche très actif à la frontière entre les mathématiques et la théorie des graphes. Pour le moment, ces liens n'ont été établis que de manière ad-hoc, à chaque fois dans des contextes bien spécifiques. Nous pensons toutefois qu'il y a matière à construire un cadre qui unifierait toutes ces méthodes tout en générant de nouvelles perspectives de recherche pour la communauté des CSP. Il s'agit là de la partie la plus exploratoire de notre projet.

QUID est un projet collaboratif impliquant des chercheurs travaillant dans différents domaines de la théorie des bases de données. Le consortium regroupe huit chercheurs répartis dans le Laboratoire d'Informatique Gaspard-Monge (LIGM, Université Marne-la-Vallée), l'Institut de Recherche en Informatique Fondamentale (IRIF, Paris Diderot), le département d'informatique de l'École Normale Supérieure de Paris (ENS Ulm) et le Laboratoire Bordelais de Recherche en Informatique (LaBRI, Université de Bordeaux). Le projet prévoit également d'inclure de jeunes chercheurs au travers du recrutement d'un doctorant et de deux post-doctorants d'un an.

Coordination du projet

Claire David (Laboratoire d'Informatique Gaspard-Monge)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LIGM Laboratoire d'Informatique Gaspard-Monge
INRIA de Paris Centre de Recherche Inria de Paris
LaBRI Laboratoire Bordelais de Recherche en Informatique
IRIF Institut de Recherche en Informatique Fondamentale

Aide de l'ANR 298 425 euros
Début et durée du projet scientifique : mars 2019 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter