CE23 - Données, Connaissances, Big data, Contenus multimédias, Intelligence Artificielle

QualiHealth: Amélioration de la Qualité des Données de Soins – QualiHealth

ANR QualiHealth: Amélioration de la Qualité des Données de Soins

Les hôpitaux produisent quotidiennement des données massives, issues de leur activité scientifique et de diagnostique. Ces données sont très utiles pour améliorer le processus de soins, dans la prévention de maladies et dans la recherche clinique. <br />Ce projet de recherche s'intéresse à la formalisation de la connaissance des experts du domaine en matière de qualité de données et à son exploitation pour l'enrichissement de ces données afin d'améliorer les usages dans le domaine médicale.

ANR QualiHealth addresse le problème de la qualité de données de soins utilisées par les experts du domain médical et les data analyst.

Ce projet adresse les enjeux scientifiques liés à la qualité de données dans le domaine de la santé. Il vise les objectifs de recherche suivants (numérotés de 1 à 4).<br /><br />(O1) Analyse exploratoire et collection de jeux de données anonymisés.<br />(O2) Spécification déclarative des indicateurs de qualité et des annotations.        <br />(O3) Prise en compte de la qualité des données dans l'évaluation des requêtes.                                              <br />(O4) Analyse de données guidée par les indicateurs de qualité.                                                                                                                                                   <br /> L'originalité du projet ANR QualiHealth consiste dans la conception d'une plateforme permettant d'exploiter des Indicateurs de Qualité (QI), portant sur des données cliniques et précliniques, pour améliorer les réponses aux requêtes des utilisateurs ainsi que les tâches d'apprentissage automatique et d'analyse complexe de données. <br /><br />Le projet adresse à la fois les besoins des informaticiens, des scientifiques  et de médecins, en mettant à disposition un cadre unifié dans lequel tous ces acteurs pourront s'appuyer sur des techniques automatiques et semi-automatiques pour définir des tâches analytiques guidées par la qualité. Comme résultats escomptés, nous visons la préparation d'un jeu de données de référence et un benchemark de requêtes  qui tiennent compte des indicateurs de qualité, ainsi que la conception et l'implémentation d'un moteur de requêtes 'quality-aware'. L'enjeu principal est celui d'apporter des contributions scientifiques nouvelles en matière de nettoyage et d'analyse de données dans le domaine médical, à ce jour peu étudiés en France.

Le projet rassemble des expertises scientifiques complémentaires pour traiter le problème de la qualité des données de santé, tout en s'appuyant sur l'utilisation à la fois des techniques de gestion des données et celles d'intelligence des données. Le spectre des méthodes et technologies utilisées s'étend des bases de données à l'intelligence artificielle et à l'apprentissage automatique en passant par la bio-informatique et l'informatique de la santé. Chaque tâche bénéficiera de collaborations croisées entre les partenaires du projet. L'approche proposée s'appuie sur des pipelines spécifiques de nettoyage de données ainsi que sur l'exploitation de différentes dimensions définissant la qualité des données, telles que l'unicité, la cohérence, la fraîcheur et l'exhaustivité. Ces dernières sont formalisées en tant qu'indicateurs de qualité représentés sous forme d'annotations calculées à partir des données de santé sous-jacentes et exploitées ensuite dans les processus d'évaluation de requêtes et d'analyse de données.

Le projet a donné lieu à une collaboration à long terme impliquant des champs disciplinaires variés : l'informatique (représentée par les laboratoires LIRIS, LIMOS et LIS) et des partenaires du domaine médical et biologique (représentés par la HEGP et l'INSERM) ainsi qu'un partenaire industriel dans le domaine informatique (Gnubila / Almerys ). La collecte de données sur les sites des experts du domaine (l'entreprise et le domaine biomédical) est en cours et conduira à la construction d'un jeu de données de référence englobant des données et des processus de santé (sous forme de requêtes et de tâches analytiques). Au cours des 18 premiers mois, le projet a permis une production scientifique de qualité : deux publications de premier niveau international, tels que VLDB 2020 (Very Large DataBases) et EDBT 2020 ( International Conference on Extending Data Base Technology) . Les algorithmes et techniques développés présentent un intérêt pour les communautés scientifiques respectives et sont susceptibles de conduire à un transfert technologique vers l'entreprise partenaire. De plus, la coordinatrice du projet QualiHealth a été sélectionné comme «French Scholar Awardee 2020« au Peter Wall Institute for Advanced Studies et à l’Embassade de France à Vancouver (Canada) (https://pwias.ubc.ca/profile/angela-bonifati) dans le cadre d'un programme visant à renforcer la collaboration entre la France et le Canada. En raison de l'épidémie de Covid19, cette action a été reportée. Elle servira de tremplin pour diffuser les résultats de QualiHealth auprès d'un large public impliquant de nombreuses universités et hôpitaux de la région de Vancouver. Elle favorisera également la collaboration entre le coordinateur et le professeur Raymond Ng (UBC), qui est un partenaire externe du projet.

Notre projet vise à aider les experts à mieux exploiter les référentiels de données cliniques et précliniques et réduire ainsi les coûts dus à des erreurs dans les diagnostiques médicaux, et leur impact sociétal, scientifique et économique. Nous nous attendons à ce que notre projet conduise à une production scientifique à fort impact et permette d'offrir une formation de qualité à des doctorants. Notre projet vise une double perspective : permettre l'accès aux données scientifiques
à tous les acteurs impliqués dans les processus de décision médicale; aider nos partenaires à améliorer la qualité des leurs données et permettre ainsi de meilleures analyses et diagnostics à partir de données plus précises.
Le partenaire industriel travaillera étroitement avec les partenaires académiques pour explorer les possibilités d’exploitation des résultats de la recherche en vue de la mise en œuvre d'un ’atelier «Quality-As-A-Service».

Le projet a donné lieu aux publications internationales suivantes : Ousmane Issa, Angela Bonifati, Farouk Toumani: Evaluating Top-k Queries with Inconsistency Degrees. Proc. VLDB Endow. 13(11): 2146-2158 (2020) Core Rank: A*; Impact Factor (2019): 3.56 hal.archives-ouvertes.fr/hal-02898931
Ugo Comignani, Noël Novelli, Laure Berti-Équille:
Data Quality Checking for Machine Learning with MeSQuaL. EDBT 2020: 591-594 (demonstration) Core Rank: A hal.archives-ouvertes.fr/hal-02865824 L'article suivant a reçu le Prix du Meilleur Article : Ousmane Issa, Angela Bonifati et Farouk Toumani « A Relational Framework for Inconsistency-aware Query Answering », Bases de Données Avancées (BDA) 2019.

Les activités des établissements hospitaliers comme les activités de recherche
scientifique des instituts de sciences de la vie produisent quotidiennement
une quantité d’information considérable. Ces données sont précieuses pour
améliorer la qualité des soins et peuvent jouer un rôle essentiel en
recherche clinique. Cependant, la collecte de telles données est souvent
réalisée par des outils variés et des processus d’acquisition de données
aux degrés de fiabilité variables. Les données, qui se trouvent ainsi
dispersées dans des sources hétérogènes, souffrent de problèmes aigus de
qualité qui nuisent à leur exploitation à des fins de recherche.

Les problèmes classiques de qualité, comme les données erronées ou
manquantes, sont observables mais d’autres problèmes plus subtils
surgissent lors de l’intégration, notamment quand un nouvel usage est visé
dans un contexte autre que celui initialement prévu. De plus, les
distributions statistiques des données peuvent évoluer dans le temps, ce
qui conduit à la présence d'aberrations (data-glitches) qui peuvent induire
de graves erreurs d’interprétation.

A ce jour, aucun système n’est capable d’assister les cliniciens et les
chercheurs dans leurs activités en prenant en compte la qualité des
données. L’absence d’indicateurs de qualité limite considérablement
l’exploitation des données de santé pour la recherche translationnelle.
Nous soutenons que des analyses bien plus riches et des interactions bien
plus fertiles entre recherche clinique et pré-clinique seraient possibles
si les données disponibles étaient annotées par des indicateurs de qualité
qui seraient ensuite exploités lors de l'interrogation et l’analyse des
données existantes.

Ce projet vise à concevoir un système capable de capturer et de formaliser
les pratiques et les connaissances des experts du domaine médical en
matière de qualité des données, afin d’enrichir les données existantes avec
des annotations et d’exploiter cette connaissance lors de l’interrogation
et l’analyse de données.

Un tel système permettra de gérer des données médicales et biologiques dont
la qualité sera certifiée et dont la qualité des résultats des requêtes
sera également certifié. Pour cela, nous visons la conception et la
réalisation d’un moteur d’évaluation de requêtes capable d’enrichir les
requêtes exprimées par ses utilisateurs pour y répondre en prenant en
compte des indicateurs de qualité. La réalisation de cet objectif ambitieux
s’appuie sur les éléments suivants :
une approche fondée sur les données concrètes, les pratiques et la
connaissance des experts sera menée pour identifier, formaliser, vérifier
et construire des indicateurs de qualité capables de capturer la variété
et la complexité des données;
ces indicateurs seront composés, normalisés et agrégés pour répondre aux
requêtes impliquant différentes granularités (ex., l’agrégation
d’indicateurs individuels lors d’une requête qui porte sur une cohorte) ou
des indicateurs différents (ex., une requête qui croise des données
incomplètes avec des données imprécises)
ces indicateurs complexes seront exploités pour développer de nouvelles
méthodes pour répondre, raffiner et enrichir les requêtes et calculer
leurs réponses. Le caractère novateur de l’approche consiste à s’affranchir
de la phase de nettoyage de données et à intégrer la prise en compte de la
qualité des données dans le processus d'interrogation, en reformulant et en
étendant automatiquement les requêtes posées.

La pertinence de la specification déclarative des indicateurs de
qualité proposés, l’efficacité du processus de reformulation intégré aux
algorithmes d’évaluation de requêtes et l'analytique guidée par les indicateurs seront évaluées par des experts du
domaine sur des données réelles et représentatives, collectées par le
consortium.

Coordination du projet

Angela Bonifati (UMR 5205 - LABORATOIRE D'INFORMATIQUE EN IMAGE ET SYSTEMES D'INFORMATION)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LIRIS UMR 5205 - LABORATOIRE D'INFORMATIQUE EN IMAGE ET SYSTEMES D'INFORMATION
LIMOS Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes
CRC CENTRE DE RECHERCHE DES CORDELIERS
INSERM U1016 Institut Cochin
GNUBILA MAAT FRANCE
LIS Laboratoire d'Informatique et Systèmes
UBC University of British Columbia / Department of Computer Science

Aide de l'ANR 744 591 euros
Début et durée du projet scientifique : janvier 2019 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter