Gestion intelligente de données imparfaites – INTENDED
De nos jours, l’énorme quantité de données disponibles recèle un potentiel d'exploitation inédit, pour des applications variées telles que la médecine ou encore pour les outils d’aide à la décision. Cependant, il est souvent difficile d’obtenir des informations pertinentes et fiables à partir de données réelles en raison de leur hétérogeneité et des problèmes de qualité (fait manquants ou incorrects). L’ambition de la chaire INTENDED est de contribuer au changement de paradigme en faveur d’une Intelligence Artificielle explicable en développant des méthodes intelligentes pour traiter ces données imparfaites, en vue de permettre une prise de décision fiable.
Le projet INTENDED s’articule autour de l’accès aux données à base d’ontologies. C’est une approche déclarative prometteuse qui exploite les connaissances sémantiques et le raisonnement automatique pour combler l’écart entre les besoins d’informations des utilisateurs et la manière dont les données sont réellement stockées. Alors que ces systèmes à base d’ontologie gagnent en maturité, ils ne parviennent toujours pas à résoudre le problème de la qualité des données.
Pour pallier cette limitation, le programme de recherche INTENDED (i) développera des méthodes pragmatiques de gestion d’incohérences qui permettent de traiter des cadres plus expressifs (ontologies plus riches, présence de mappings, dimension temporelle), actuellement non résolues au niveau de l’état de l’art (ii) exploitera des informations de fiabilité qualitatives et quantitatives pour les faits et les contraintes afin d’affiner les résultats des requêtes et de les annoter avec des scores de confiance, (iii) de résoudre un plus large éventail de problèmes de données et obtenir ainsi de meilleurs résultats globaux en développant une approche qui intègre étroitement les méthodes existantes de nettoyage des données (liaison d'entités, analyse statistique) et (iv) développera une approche personnalisée adaptée aux besoins des utilisateurs en les intégrant dans le processus. Cela leur permettra de déterminer la marche à suivre pour traiter certains types d’erreurs, en fonction de leurs connaissances et de la manière dont les données seront utilisées. Durant le projet, nous veillerons à ce que les approches développées adoptent une sémantique claire et qu’il soit possible de retracer les résultats de la requête. Le but est de comprendre ainsi comment les différentes données ont contribué aux résultats.
Pour valider notre approche, nous allons implémenter et tester les algorithmes les plus prometteurs et les mettre à la disposition de la communauté scientifique. De plus, nous démontrerons l'intérêt pratique à travers un cas d’usage en milieu hospitalier. L’objectif est d’ajouter des fonctionnalités de recherche sémantique ainsi que des indicateurs de fiabilité à une interface en cours de développement pour afficher des informations pertinentes dans le cas d’urgences médicales.
INTENDED rassemble une équipe interdisciplinaire d’experts dans tous les domaines connexes (IA, bases de données et médecine). L’équipe dispose d’une vaste expérience dans le domaine de l’accès aux données médiatisé par des ontologies, la gestion d’incohérences, et l’intégration de données de santé publique. Le projet s'inscrit parfaitement dans le nouveau thème « Données et connaissances », qui fait partie de la restructuration du laboratoire LaBRI.
Bien que la médecine soit l’application privilégiée, les résultats de la chaire couvrent des domaines beaucoup plus larges. Ils peuvent concerner par exemple l’intégration des données d’entreprise, étant donné l’intérêt croissant des entreprises pour des approches sémantiques. Les possibilités de valorisation via des partenariats avec des organisations des secteurs public et privé seront explorées.
INTENDED comprend également un programme de formation ambitieux, qui vise à introduire les ontologies et les normes du Web sémantique (OWL, RDF, SPARQL) à un large éventail d'étudiants.
Coordination du projet
Meghyn BIENVENU (Laboratoire Bordelais de Recherche en Informatique)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
LaBRI Laboratoire Bordelais de Recherche en Informatique
Aide de l'ANR 591 192 euros
Début et durée du projet scientifique :
août 2020
- 48 Mois