MDCO - Masse de données Connaissances Ambiantes

Découverte de connaissances par et pour des requêtes inductives dans des applications en post-génomique – BINGO2

Résumé de soumission

Ce projet relève de la conception de nouvelles méthodes et de nouveaux outils pour la découverte
de connaissances à partir de bases de données. Nous sommes convaincus qu'une recherche amont en
fouille de données doit s'intéresser à des scénarios du monde réel et nous avons décidé de nous focaliser
sur quelques processus d'extraction de connaissances à partir de données dans le cadre de la biologie
moléculaire, par exemple la découverte de groupes de synexpression ou encore celle de sites de xation de
facteurs de transcription. Les partenaires du projet Bingo2 ont de solides connaissances en apprentissage
automatique et en fouille de données. De plus, ils coopèrent déjà au développement du cadre prometteur
des bases de données inductives au sein du projetBingo qui se terminera à l'automne 2007 et relevant de
l'ACI Masses de Données. Le principe général des bases de données inductives repose sur l'idée que les
processus d'extraction de connaissances à partir de bases de données peuvent être considérés comme des
processus d'interrogation, i.e. des séquences de requêtes, qui exploitent à la fois les données ou les motifs
et modèles sous jacents dans celles-ci. Les requêtes devant retourner des motifs ou modèles sont appelées
requêtes inductives. Le développement du cadre des bases de données inductives est particulièrement
délicat : pour un domaine de motifs donné, nous devons identi er quelles primitives doivent être utilisées
pour construire les requêtes et comment de telles requêtes peuvent être évaluées par l'intermédiaire de
solveurs (i.e. d'outils basés sur des algorithmes de fouille de données sous contraintes). Une remarque
importante concernant l'état de l'art est que la plupart des recherches en fouille de données sous contraintes
ne se préoccupent pas de la question de l'origine des contraintes. Lorsqu'un analyste sait qu'il
peut spéci er des contraintes sur des motifs ou des modèles, est-il possible de l'aider dans son processus
de requêtes en le guidant lors de la dé nition des contraintes relevant du domaine de son problème ?
Dans Bingo2 , nous souhaitons non seulement poursuivre la conception de nouveaux outils de fouille de
données ou d'apprentissage automatique, mais nous voulons également nous intéresser à déterminer comment
de la connaissance (partielle) du domaine (éventuellement elle-même découverte par l'intermédiaire
de requêtes inductives) peut être utilisée pour aider à la découverte de connaissances et éviter le schéma
trop de motifs après trop de données qui est malheureusement bien trop classique dans les processus
exploratoires d'extraction de connaissances à partir de bases de données. Techniquement, de nouvelles
méthodes et de nouveaux outils seront développés au sein du projet Bingo2 pour l'inférence grammaticale
et la fouille de données séquentielles, la programmation logique inductive (et plus généralement la
fouille de données multi-relationnelles), la découverte de motifs dans les textes et les données 0/1.

Coordination du projet

Bruno CREMILLEUX (Université)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Aide de l'ANR 320 000 euros
Début et durée du projet scientifique : - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter