CE45 - Mathématiques et sciences du numérique pour la biologie et la santé

Intégration de données multimodales en biomédecine – CAMUDI

Résumé de soumission

Les technologies à haut-débit génèrent une quantité phénoménale de données biologiques. Ces données offrent des opportunités sans précédent pour mieux comprendre les systèmes biologiques ainsi que leurs dérégulations pathologiques, mais suscitent également des défis informatiques considérables. Un défi fondamental concerne l'intégration de données obtenues à partir de sources - ou modalités - multiples et hétérogènes. Les différentes modalités permettent de capturer des aspects complémentaires du fonctionnement cellulaire, et une intégration appropriée est critique pour révéler précisément les mécanismes cellulaires. Le projet CAMUDI propose de développer de nouvelles approches d’intégration de données multimodales capables de faire face à la complexité et la diversité croissante des données biologiques, et adaptées à l’analyse d’un faible nombre d’échantillons. En effet, la plupart des approches d’intégration de données existantes sont gourmandes en données. Cependant, pour un grand nombre d’applications, par exemple pour l’étude des maladies rares, le nombre d’échantillons disponibles est par définition limité.

Nous développerons dans un premier temps des approches de réduction de dimension avec de l’apprentissage par transfert. Les données multi-omiques disponibles dans les compendia publics seront intégrées par des approches de réduction de dimension, et les données cibles composées d’un petit nombre d’échantillons seront projetées sur l’espace latent appris. Nous exploiterons ensuite des méthodes d’exploration de réseaux multi-couches pour proposer des pipelines de repositionnement de médicaments, en implémentant et en comparant des approches supervisées et non-supervisées, et en utilisant soit les réseaux directement, soit des projections des réseaux dans un espace de plus faible dimension. Enfin, nous développerons des auto-encodeurs multimodaux avec apprentissage par transfert pour intégrer des données omiques et d’imagerie. Les autoencoders multimodaux seront entraînés sur des données publiques, et ensuite raffinés sur les données cibles composées d’un faible nombre d’échantillons.

Toutes les approches développées dans le cadre du projet CAMUDI seront implémentées sous forme d’outils disponibles pour la communauté, et appliqués à la Dystrophie Facio Scapulo Humérale (FSHD) en utilisant des données omiques et d’imagerie produites dans le cadre du projet. FSHD est une maladie génétique rare et hétérogène dont les mécanismes pathophysiologiques restent peu connus. Nous émettons l’hypothèse que l’analyse et l’intégration de données multimodales est cruciale pour permettre un diagnostic moléculaire approprié et la stratification des patients, pour l’identification des voies de signalisation et des processus impliqués dans la pathologie ainsi que pour le développement de nouvelles approches thérapeutiques.

Coordination du projet

Anais BAUDOT (Centre de Génétique Médicale de Marseille (Marseille Medical Genetics))

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LIS Laboratoire d'Informatique et Systèmes
MMG Centre de Génétique Médicale de Marseille (Marseille Medical Genetics)
I2M Institut de Mathématiques de Marseille
MMG Centre de Génétique Médicale de Marseille (Marseille Medical Genetics)

Aide de l'ANR 404 850 euros
Début et durée du projet scientifique : décembre 2021 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter