Apprentissage profond de bout en bout pour la médecine de précision basé sur la métagénomique et l'intégration de données – DeepIntegrOmics
Dans les maladies chroniques telles que les maladies cardiométaboliques (CMD), l'utilisation du microbiote intestinal comme biomarqueur ou nouvelle source de traitement potentiel est suggérée. En tant que "super intégrateur" de l'état du patient, la métagénomique est appelée à jouer un rôle clé dans la médecine de précision. Mais, il existe des obstacles informatiques à son utilisation systématique dans les services médicaux. Les approches de diagnostic métagénomique reposent globalement sur des projections en termes de calcul des données de séquence par rapport à de grands catalogues de référence génomique (>170 millions de gènes pour le dernier UHGP). L'apprentissage profond a révolutionné l'analyse prédictive, en améliorant de nombreux modèles antérieurs impliquant des “pipelines” bioinformatiques lourds pour effectuer des tâches de classification ou de stratification. Il existe peu de littérature sur l'apprentissage profond de bout en bout des données métagénomiques brutes pour prédire les phénotypes des patients. Une première barrière scientifique que DeepIntegrOmics abordera est le développement de modèles pronostic ou diagnostic de routine ("point-of-care") basé sur la métagénomique. Un problème récurrent en médecine de précision est d'intégrer différentes sources de données omiques tout en contrôlant l'équilibre coût/bénéfice. Évaluer l'utilité de demander plus d'examens est de fait critique pour leur utilisation de routine. Bien que les maladies cardiométaboliques soient la principale cause de mortalité dans le monde et sources d'invalidité, la stratification des patients est insuffisante et les signatures moléculaires intégrées qui informent sur la progression des CMD font défaut. Le projet DeepIntegrOmics se concentrera ainsi sur deux questions de recherche dans l'utilisation de l'apprentissage profond pour la médecine de précision basée sur des données omiques multiples 1) atteindre une prédiction fiable à partir de données métagénomiques brutes et 2) améliorer la précision de la classification et la stratification en intégrant d'autres données omiques. Deux autres objectifs appliqués seront de proposer de nouvelles approches pour 1) l'identification des biomarqueurs omiques des stades de CMDs et 2) pour la stratification des patients par l'interprétation de ces architectures de réseaux neuronaux à partir d'une base de données phénotypées uniques. Nous utiliserons les données de 1844 patients issues du projet européen H2020 MetaCardis et, évaluerons la valeur pronostique de la stratification pour prédire la progression de la CMD pour 807 patients parmi les 1844 pour lesquels nous avons caractérisé leur évolution (changements cliniques) pendant 10 ans. Ces objectifs soutiendront la médecine translationnelle et de précision (c'est-à-dire la classification et la nouvelle stratification des patients) dans la perspective du déploiement de ces modèles pour une utilisation de routine dans les centres cliniques. Les résultats attendus sont à la fois dans la stratification de la cohorte MetaCardis, la découverte de signatures de biomarqueurs et la capacité à prédire la transition dans la progression de la maladie. L’enjeu clinique est de contribuer à améliorer la gestion des patients atteints de CMD. D'un point de vue méthodologique, le résultat attendu est à la fois une architecture DL pour l'intégration de données sensibles aux coûts et des embeddings de source ouverte qui fournissent les connaissances compilées pour effectuer une classification multi-omique. En termes d'impact, la classification basée sur les nouveaux marqueurs "omiques" dérivés du microbiote intestinal pourrait générer de nouvelles cibles thérapeutiques. Le consortium possède de très solides compétences en mathématiques, bioinformatique, informatique et clinique, ainsi qu'une collaboration intensive de longue date et des travaux récents sur les preuves de concept des approches proposées.
Coordination du projet
Jean-Daniel Zucker (Unité de modélisation mathématique et informatique des systèmes complexes)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
UMMISCO Unité de modélisation mathématique et informatique des systèmes complexes
IBISC Informatique, BioInformatique, Systèmes Complexes
NUTRIOMICS NUTRITION ET OBESITES : APPROCHES SYSTEMIQUES (NUTRIOMIQUE)
LAMSADE Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision
Aide de l'ANR 621 005 euros
Début et durée du projet scientifique :
- 48 Mois