CE48 - Fondements du numérique: informatique, automatique, traitement du signal

Compilation de connaissances pour l'analyse de données – KCODA

KCODA - Knowledge COmpilation for Data Analysis

KCODA est une ANR JCJC dont le but est d'établir de nouveaux algorithmes permettant de résoudre des problèmes d'agrégation complexes en base de données grâce à des techniques issues de la compilation de connaissances.

Enjeux et objectifs

L'objectif principal de KCODA est de comprendre quels problèmes d'optimisation et d'apprentissage peuvent être résolus de façon plus efficace en exploitant le fait que les données utilisées sont structurées, ce qui est par exemple le cas lorsqu'elles sont générées par une requête de base de données. De nombreux algorithmes ont été proposés qui tirent parti du fait que la structure de la requête peut être exploitée pour réduire la complexité de l'approche naïve consistant à énumérer toutes les solutions de la requête avant de résoudre le problème en question. Nous proposons dans ce projet de réexpliquer ces résultats comme des manipulations élémentaires d'une structure de données permettant de représenter les solutions d'une requête de base de données sous forme factorisée. Nous étudierons ensuite la complexité d'autres problèmes plus complexes que nous tenterons de résoudre directement sur ces structures de données comme par exemple, la résolution de programme linéaire dont les variables sont les solutions d'une requête de base de données.

Notre approche s'appuie sur le fait que dans de nombreux cas, on peut représenter les réponses d'une requête de base de données sous forme factorisée, sans compromettre pour autant leur utilisabilité. On utilisera pour cela des structures de données inspirées du domaine de la compilation de connaissances. Ces structures de données permettent originellement de représenter une fonction booléenne de façon plus succincte que sa table de vérité, tout en permettant le calcul rapide de nombreux agrégats comme trouver le nombre de solutions de la fonction en temps linéaire. Ces structures de données peuvent être généralisées au domaine des bases de données pour représenter une table sur un domaine non-booléen. Cette approche, introduite principalement par Dan Olteanu, est connue sous le nom de *factorized databases*. Cependant, les structures de données impliquées ici n'ont jamais été systématiquement classifiées et étudiées aussi précisément que pour celles utilisées en compilation de connaissances. Nous nous proposons donc de réaliser une étude systématique de ces structures de données visant à une unification de nombreux résultats épars en base de données tout en proposant des généralisations et des implémentations à l'intérieur même des systèmes de gestion de base de données.

Le but de KCODA est d'étudier comment des représentations succinctes peuvent être utilisées pour résoudre efficacement des problèmes d'optimisation et d'IA modernes qui utilisent beaucoup de données. Nous proposons d'utiliser des structures de données provenant du domaine de la compilation de connaissances qui permettent de représenter de gros jeux de données succinctement en factorisant certaines parties tout en permettant une analyse efficaces des données représentées. Le premier but de KCODA est de comprendre comment on peut résoudre efficacement des problèmes d'optimisation et d'apprentissage pour des données représentées par ces structures. Le second but de KCODA est d'offrir une meilleure intégration de ces techniques dans les systèmes de gestion de bases de données en proposant de nouveaux algorithmes permettant de construire des représentations factorisées des données des réponses d'une requête de BD et en proposant des encodages de ces représentations à l'intérieur de la BD.

Coordination du projet

Florent Capelli (Centre de Recherche en Informatique, Signal et Automatique de Lille)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

CRIStAL Centre de Recherche en Informatique, Signal et Automatique de Lille

Aide de l'ANR 152 496 euros
Début et durée du projet scientifique : March 2021 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter