CONTINT - Contenus numériques et interactions

Gestion sémantique de données d’Imagerie Bio Médicale pour la recherche – Biomist

BIOMIST : Gestion sémantique de données d’Imagerie Bio Médicale pour la recherche

L'objectif est de fournir aux chercheurs utilisant l'imagerie bio-médicale un système d'information efficace de façon à optimiser l'utilisation de leurs données dans le cadre d'activités de recherche incluant de larges groupes de sujets sur des périodes prolongées. Cela devra permettre la réutilisation de données produites en recherche clinique et fondamentale dans un contexte et pour un but autre que celui pour lequel elles avaient été acquises.

Enjeux et objectifs

Avec l'équipe de recherche du GIN, nous nous concentrons sur le domaine de l'imagerie neurofonctionnelle comme terrain d'expérimentation. En dehors des données d'imagerie proprement dites (2D, 3D, 4D), nous cherchons à gérer toutes les autres données nécessaires à la définition d'une étude, notamment les données démographiques, comportementales ainsi que des données génétiques. Le but n'est pas seulement de gérer et de tracer les documents d'une étude mais également les concepts utilisés par les chercheurs tels que paradigme de stimulations cognitives, tâches de traitements, définitions des études comportementales,...ainsi que toutes les relations qui peuvent exister entre ceux-ci.<br />Nous proposons donc des méthodologies et des outils qui permettront de gérer la complexité grandissante et la provenance des données BMI, mais aussi leur usage, leurs différentes représentations et leur interprétation dans le domaine de la recherche neurofonctionnelle. Nous proposons de mettre en œuvre une infrastructure désormais couramment utilisée en ingénierie industrielle pour couvrir les exigences de base de gestion des données BMI : un outil PLM (Product Lifecycle Management) et de l'adapter aux besoins des chercheurs. Une meilleure flexibilité que celle offerte par le PLM est attendue, aussi nous proposons d'utiliser des techniques de gestion des connaissances pour améliorer la traçabilité et les possibilités de réutilisation des données dans un contexte beaucoup plus évolutif (celui de de la recherche) que celui de l'industrie. <br />En outre nous fournirons et intégrerons des outils de visualisation et d'analyse qui permettront de faire des hypothèses, de découvrir intuitivement des «patterns« et d'isoler des singularités structurelles dans des représentations par graphe des données qui pourront être utilisées pour représenter les relations sémantiques ou les réseaux de connectivités du cerveau (une représentation spécifique aux études neurofonctionnelles).<br />

Methodologie

Le projet est géré selon une méthodologie Scrum que nous avons adaptée à la structure multidisciplinaire et géographiquement dispersée des partenaires. Un « backlog » d’exigences est géré à l'aide de l'outil Agilefant, 4 ou 5 sprints sont définis par an.
Afin de définir précisément les besoins dans le domaine de l’imagerie neurofonctionnelle, un ensemble d’entretiens avec les chercheurs du GIN sont organisés, permettant de décrire les « users stories » nécessaires à la définition des différents Sprints. De la même façon la partie définition et déploiement de l’infrastructure technique est démarrée afin de mettre en place les moyens informatiques nécessaires.
L’analyse des « users stories », de l’existant en terme de bases de données du GIN et des ontologies dans le domaine des neurosciences ont permis la définition d’un modèle de données déployé sur le PLM, la définition d’objets de classification compatibles avec le vocabulaire défini par les ontologies du domaine et la définition de processus de traitement des données d’imagerie sur des grilles de calcul.
La « user story » la plus générale demande de créer une interface utilisateur la plus appréhensible possible permettant de définir une requête prenant en compte les classifications existantes, de présenter le résultat (un ensemble de sujets ayant participé à des études existantes), de lancer un traitement sur une grille de calcul et d’analyser les réseaux de connectivité obtenus. Toutes ces différentes étapes demandent de manipuler un ensemble complexe de représentations (classifications, modèle, réseaux de connectivité, comparaison de réseaux,…) qui nous ont amenés à définir et utiliser des graphes configurables multidimensionnels et multivariés qui permettent de représenter les évolutions dans plusieurs dimensions (le temps, les sujets, les traitements,…) d’un graphe représentant les interactions entre régions du cerveau.

Résultats

Après une année de travail sur le projet nous avons atteints les résultats suivants :
- Les moyens de communication interne (gestion du backlog, partage des documents du projet, moyens de téléconférence, gestion des sources, système d’intégration continue,…) et de communication externe (site Web) ont été déployés.
- L’accord de consortium est en phase de signature.
- un premier ensemble de besoins sur le processus global ont été recueillis, raffinés et analysés concernant l’acquisition, traitements, analyse, recherche et publication scientifique.
- l'infrastructure technique du projet : machines, logiciel PLM, OS,... ont été acquises et déployés.
- le modèle de donnée est défini et comparé à des modélisations existantes : modèle GIN, modèle OntoNeuroLOG, XNAT,…
- les processus techniques ont été définis : acquisition, stockage, liaison avec les grilles de calcul
- les workflows de traitement sont en phase de déploiement et de tests.
- la migration des données et leur alignement sur le nouveau modèle depuis la base GIN vers le nouveau système est faite.
- des liens ont été établis avec les projets Codde (ANR-13-CORD-0017), NeuroLOG (ANR-06-TLOG-024), i-Share (http://www.i-share.fr).
- plusieurs frameworks de développement autour des graphes ont été analysés (Gephi, Cytoscape, Tulip), cependant la définition des graphes qu’ils utilisent n’est pas suffisamment large pour nos besoins. Nous avons donc défini une structure et un format d’échange de graphes qui pourra être adaptée afin d’être compatible avec le format Gexf (compris par les frameworks existants) tout en permettant d’utiliser des graphes configurables multidimensionnels et multivariés. La définition des outils de présentation et de manipulation des graphes que nous utilisons est en cours de développement.
- des interfaces de recueil d’acquisitions et de définition de requête intégrées avec l’outil PLM sont en cours de développement
- deux publications scientifiques ont été soumises et acceptées.

Perspectives

Cette première année a été consacrée aux principes fondamentaux du projet : déployer l’infrastructure technique, intégrer les moyens de calcul, déployer l’outil PLM, son modèle de données et les principes de classification, déployer les processus de traitement des données et définir les bases des interfaces utilisateurs. A l’heure actuelle l’écueil principal sur l’utilisation directe de l’infrastructure mise en place est la trop haute « technicité » de l’interface d’utilisation.
La définition d’une interface unifiant la présentation et la manipulation du système de gestion de données, automatisant le lancement des traitements et la récupération des données traitées, puis leur présentation et analyse est l’axe principal du travail de la seconde année du projet.
L’objectif à la fin du projet est de valider le travail effectué en prenant part à une étude dans un cas réel où les données acquises seront dirigées en parallèle vers l’infrastructure Biomist et vers un système existant et de mener de front l’étude en comparant les performances et l’utilisabilité des deux systèmes.

Productions scientifiques et brevets

ALLANIC, Marianne, DURUPT, Alexandre, JOLIOT, Marc, EYNARD, Benoît, BOUTINAUD, Philippe. Towards a data model for PLM application in Bio-Medical Imaging. In: Proceedings of TMCE, 2014.
ALLANIC, Marianne, BRIAL, Thierry, DURUPT, Alexandre, JOLIOT, Marc, BOUTINAUD, Philippe, EYNARD, Benoît. Towards an enhancement of relationships browsing in mature PLM systems. In : Product Lifecycle Management for Society. Springer Berlin Heidelberg, 2014.

Résumé de soumission

Le projet BIOMIST (Gestion sémantique de données d’Imagerie Bio Médicale pour la recherche) est proposé en réponse au deuxième axe thématique de l’appel à projet Contint 2013 : des contenus aux connaissances et grandes masses de données. L’objectif est de fournir aux chercheurs dans le domaine de l’imagerie bio-médicale (BMI) un système d’information efficace afin qu’ils puissent optimiser l’utilisation de ces données dans le cadre d’activités de recherche sur de large groupes de sujets and de permettre la réutilisation de données déjà acquises, traitées et interprétées dans d’autres contextes que celui où elles ont été acquises initialement.

Les partenaires pour ce projet sont Cadesis (une PME spécialisée dans l’intégration de systèmes d’information pour l’industrie), Groupe d'Imagerie Neurofonctionnelle (GIN - UMR 5296) un membre fondateur du LabEx TRAIL "Investissements d'avenir", le Laboratoire Roberval (UMR 7337 - Université Technologique de Compiègne) et l’Institut Charles Delaunay (ICD - UMR 6279 - Université Technologique de Troyes).

Avec l’équipe du GIN nous utiliserons le domaine de l’imagerie neuro-fonctionnelle comme champ d’application de notre projet. En plus des images (2D, 3D, 4D) nous considèrerons tout type de données requises dans ce domaine comme les données démographiques, comportementales.., et un nouveau sujet : les données génétiques. Une attention particulière sera portée à la définition des analyses et des résultats intra et inter sujets et leurs relations avec les publications scientifiques associées. Notre projet vise à gérer, non seulement un ensemble de documents, mais aussi les concepts utilisés en analyse neuro-fonctionnelle tel que paradigmes de stimulation, tâches cognitives, résultats de tests comportementaux,.. et toutes les relations pouvant exister entre eux.

Nous fournirons les outils et méthodologies capable de gérer la complexité, le nombre croissant et l’hétérogénéité des données BMI mais aussi leurs utilisations et représentations dans le contexte de la recherche neuro-fonctionnelle. Nous proposons l’utilisation d’une solution mature utilisée en ingénierie traditionnelle : un outil de PLM (Product Lifecycle Management). Cependant, notre domaine d’application, en tant que domaine de recherche demande une flexibilité supérieure à ce qu’offrent les solutions actuelles de PLM ; nous proposons donc d’utiliser des techniques de Gestion des Connaissances pour améliorer les possibilités de réutilisation et de traçabilité des données BMI. Nous développerons et intégrerons des outils de visualisation et d’analyse qui permettront de faire des hypothèses, de découvrir instinctivement et d’isoler des singularités structurelles dans les représentations par graphes de relations sémantiques et de connectivité du cerveau.

Les résultats du projet seront un prototype déployé, validé et utilisé par l’équipe du GIN. Les transferts technologiques entre les partenaires académiques et Cadesis conduiront à la disponibilité commerciale d’un module des gestion des données bio-médiales pour les solutions PLM ainsi qu’à une amélioration des méthodologies de réutilisation des informations et au développement d’outils et d’algorithmes de graphes pouvant être adaptés à un large éventail de domaines.

Philippe BOUTINAUD (Cadesis) – pboutinaud@cadesis.com

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

UTT Université de technologie de Troyes / Institut Charles Delaunay / Tech-CICO
UTC Université de Technologie de Compiègne
Cadesis Cadesis
GIN UMR5296

Aide de l'ANR 676 663 euros
Début et durée du projet scientifique : octobre 2013 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.