ChairesIA_2019_1 - Chaires de recherche et d'enseignement en Intelligence Artificielle - vague 1 de l'édition 2019 2019

Gestion intelligente de données imparfaites – INTENDED

Gestion Intelligente de Données Imparfaites

De nos jours, l’énorme quantité de données disponibles recèle un potentiel d'exploitation inédit, mais il est souvent difficile d’obtenir des informations pertinentes et fiables à partir de données réelles en raison de leur hétérogenéité et des problèmes de qualité. L’ambition de la chaire est de développer des méthodes intelligentes pour traiter ces données imparfaites, en vue de permettre une prise de décision fiable.

Contexte et Défis

Le projet s’articule autour de l’accès aux données à base d’ontologies (en anglais : ontology-based data acces, OBDA). C’est une approche déclarative prometteuse qui exploite les connaissances sémantiques et le raisonnement automatique pour combler l’écart entre les besoins d’informations des utilisateurs et la manière dont les données sont réellement stockées. <br /><br />Alors que ces systèmes OBDA gagnent en maturité, ils ne parviennent toujours pas à résoudre le problème de la qualité des données, se limitant souvent à émettre des alertes quand les incohérence sont découvertes. Il est donc crucial de rendre cette approche suffisamment robustes pour s'attaquer à l'intégration des données du monde réel qui sont en désordre.

Programme de Recherche

Notre programme de recherche comporte des tâches suivantes:

(i) Le développement de méthodes pragmatiques de gestion d’incohérences qui permettent de traiter des cadres plus expressifs (ontologies plus riches, présence de mappings, dimension temporelle), actuellement non résolues au niveau de l’état de l’art.

(ii) L'exploitation des informations de fiabilité qualitatives et quantitatives pour les faits et les contraintes afin d’affiner les résultats des requêtes et de les annoter avec des scores de confiance.

(iii) La résolution d'un plus large éventail de problèmes de données et obtenir ainsi de meilleurs résultats globaux en développant une approche qui intègre étroitement les méthodes existantes de nettoyage des données (liaison d'entités, analyse statistique).

(iv) Le développement d'une approche personnalisée adaptée aux besoins des utilisateurs en les intégrant dans le processus. Cela leur permettra de déterminer la marche à suivre pour traiter certains types d’erreurs, en fonction de leurs connaissances et de la manière dont les données seront utilisées.

(v) La démonstration de l'intérêt pratique de notre approche à travers un cas d’usage en milieu hospitalier.

(vi) L'implémentation et l'expérimentation de nos algorithmes les plus prometteurs, en les mettant à la disposition de la communauté scientifique.

Durant le projet, nous veillerons à ce que les approches développées adoptent une sémantique claire et qu’il soit possible de retracer les résultats de la requête. Le but est de comprendre ainsi comment les différentes données ont contribué aux résultats.

Résultats

Les résultats attendus de nos travaux de recherche fondamentaux seront essentiellement de trois types :

- la définition de nouveaux cadres formels pour raisonner sur les données imparfaites, en présence de contraintes, ontologies, informations de fiabilité, et préférences des utilisateurs

- des résultats de complexité pour comprendre la difficulté inhérente aux tâches de raisonnement, et ainsi guider le dévéloppement d'algorithmes

- de nouveaux algorithmes et des optimisations pour raisonner sur les données imparfaites et pour construire et analyser les politiques de gestion de données imparfaites

La valorisation de nos résultats se fera principalement par des publications dans les meilleurs congrès du domaine. Nous ciblerons les grandes conférences d’intelligence artificielle (IJCAI, AAAI, ECAI), la conférence spécialisée KR, et éventuellement les conférences prestigieuses des domaines connexes (e.g. bases de données, informatique médicale).

Le côté plus applicatif du projet produira :

- une étude de cas qui examinera l’apport de nos techniques pour interroger des données de santé

- une implémentation et une expérimentation de nos algorithmes les plus prometteurs, ainsi qu'une démonstration pour les mettre en valeur.

Perspectives

Nous nous attendons à ce que les solutions pragmatiques développées dans le cadre du projet soient intégrées dans les systèmes OBDA existants ou futurs, ce qui constituerait un énorme pas en avant pour rendre ces systèmes suffisamment robustes pour s'attaquer à l'intégration des données du monde réel qui sont en désordre, élargissant ainsi les applications potentielles de l'approche OBDA.

Grâce à nos travaux et aux événements organisés, la chaire encouragera les collaborations entre les chercheurs en IA travaillant sur l'OBDA et le traitement des incohérences et les chercheurs en BD travaillant sur la qualité des données et la cohérence des réponses aux requêtes. De façon plus générale, la chaire aidera à relever le défi majeur de l'IA qui consiste à combiner les méthodes symboliques et numériques.

Productions scientifiques et brevets

Meghyn Bienvenu: A Short Survey on Inconsistency Handling in Ontology-Mediated Query Answering. Special Issue on Ontologies and Data Management: Part II. Künstliche Intelligenz 34(4): 443-451, 2020.

Meghyn Bienvenu, Camille Bourgaux: Querying and Repairing Inconsistent Prioritized Knowledge Bases: Complexity Analysis and Links with Abstract Argumentation. Proceedings of the 17th International Conference on Principles of Knowledge Representation and Reasoning (KR), 2020.

Gianluca Cima, Marco Console, Maurizio Lenzerini, Antonella Poggi: Monotone Abstractions in Ontology-based Data Management. Proc of 36th AAAI Conference on Artificial Intelligence (AAAI), 2022.

Résumé de soumission

De nos jours, l’énorme quantité de données disponibles recèle un potentiel d'exploitation inédit, pour des applications variées telles que la médecine ou encore pour les outils d’aide à la décision. Cependant, il est souvent difficile d’obtenir des informations pertinentes et fiables à partir de données réelles en raison de leur hétérogeneité et des problèmes de qualité (fait manquants ou incorrects). L’ambition de la chaire INTENDED est de contribuer au changement de paradigme en faveur d’une Intelligence Artificielle explicable en développant des méthodes intelligentes pour traiter ces données imparfaites, en vue de permettre une prise de décision fiable.

Le projet INTENDED s’articule autour de l’accès aux données à base d’ontologies. C’est une approche déclarative prometteuse qui exploite les connaissances sémantiques et le raisonnement automatique pour combler l’écart entre les besoins d’informations des utilisateurs et la manière dont les données sont réellement stockées. Alors que ces systèmes à base d’ontologie gagnent en maturité, ils ne parviennent toujours pas à résoudre le problème de la qualité des données.

Pour pallier cette limitation, le programme de recherche INTENDED (i) développera des méthodes pragmatiques de gestion d’incohérences qui permettent de traiter des cadres plus expressifs (ontologies plus riches, présence de mappings, dimension temporelle), actuellement non résolues au niveau de l’état de l’art (ii) exploitera des informations de fiabilité qualitatives et quantitatives pour les faits et les contraintes afin d’affiner les résultats des requêtes et de les annoter avec des scores de confiance, (iii) de résoudre un plus large éventail de problèmes de données et obtenir ainsi de meilleurs résultats globaux en développant une approche qui intègre étroitement les méthodes existantes de nettoyage des données (liaison d'entités, analyse statistique) et (iv) développera une approche personnalisée adaptée aux besoins des utilisateurs en les intégrant dans le processus. Cela leur permettra de déterminer la marche à suivre pour traiter certains types d’erreurs, en fonction de leurs connaissances et de la manière dont les données seront utilisées. Durant le projet, nous veillerons à ce que les approches développées adoptent une sémantique claire et qu’il soit possible de retracer les résultats de la requête. Le but est de comprendre ainsi comment les différentes données ont contribué aux résultats.

Pour valider notre approche, nous allons implémenter et tester les algorithmes les plus prometteurs et les mettre à la disposition de la communauté scientifique. De plus, nous démontrerons l'intérêt pratique à travers un cas d’usage en milieu hospitalier. L’objectif est d’ajouter des fonctionnalités de recherche sémantique ainsi que des indicateurs de fiabilité à une interface en cours de développement pour afficher des informations pertinentes dans le cas d’urgences médicales.

INTENDED rassemble une équipe interdisciplinaire d’experts dans tous les domaines connexes (IA, bases de données et médecine). L’équipe dispose d’une vaste expérience dans le domaine de l’accès aux données médiatisé par des ontologies, la gestion d’incohérences, et l’intégration de données de santé publique. Le projet s'inscrit parfaitement dans le nouveau thème « Données et connaissances », qui fait partie de la restructuration du laboratoire LaBRI.

Bien que la médecine soit l’application privilégiée, les résultats de la chaire couvrent des domaines beaucoup plus larges. Ils peuvent concerner par exemple l’intégration des données d’entreprise, étant donné l’intérêt croissant des entreprises pour des approches sémantiques. Les possibilités de valorisation via des partenariats avec des organisations des secteurs public et privé seront explorées.

INTENDED comprend également un programme de formation ambitieux, qui vise à introduire les ontologies et les normes du Web sémantique (OWL, RDF, SPARQL) à un large éventail d'étudiants.

Bienvenu Meghyn (Laboratoire Bordelais de Recherche en Informatique)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LaBRI Laboratoire Bordelais de Recherche en Informatique

Aide de l'ANR 591 192 euros
Début et durée du projet scientifique : août 2020 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.