CE23 - Intelligence artificielle 2019

Apprentissage des effets causaux entre phénome et exposome à partir de grandes quantités de données hétérogènes pour les maladies complexes chez l'homme – GePhEx

GePhEx - Génome, Phénome et Exposome

Apprentissage des effets causaux entre phénome et exposome à partir de grandes quantités de données hétérogènes pour les maladies complexes chez l'homme.

Apprentissage des relations causales entre symptômes, facteurs extrinsèques et gènes

Les dix dernières années ont été marquées par une expansion considérable du nombre de données omiques, ce qui a entraîné une explosion des jeux de données biologiques hétérogènes accessibles au public. Les technologies récentes de génotypage et de profilage permettent à la communauté scientifique d'étudier les altérations génomiques liées aux maladies humaines complexes. Par ailleurs, il apparait de plus en plus clairement que certaines maladies complexes résultent de l'interaction entre les gènes d'un individu et des facteurs environnementaux, comme c'est le cas pour les maladies pulmonaires ou coronariennes. Alors que des traitements prometteurs sont à l’étude, les professionnels de la santé préconisent progressivement des interventions médicales éducatives ou préventives, pour lesquelles les avantages cliniques ont été évalués positivement par des études antérieures.<br /><br />Le projet GePhEx (Genome-Phenome-Exposome) propose de découvrir automatiquement le phénome et l'exposome associés à des altérations génomiques dans le contexte d'une maladie humaine complexe donnée et d'apprendre les relations de causalité entre symptômes, facteurs environnementaux et gènes impactés. Ce projet traite de problèmes critiques de santé publique, car la découverte de nouveaux déterminants environnementaux ou de traits phénotypiques d'une maladie pourrait aider à établir des recommandations médicales efficaces et à favoriser un diagnostic plus précoce. Les nouvelles méthodes analytiques proposées par GePhEx permettront (i) la découverte automatique des facteurs environnementaux et des traits phénotypiques associés à partir d'un grand nombre de données et de publications scientifiques accessibles au public, (ii) de relier de manière causale les entités phénome, exposome et génome dans le contexte d'une maladie spécifique (iii) de fournir une application web facile à utiliser pour améliorer la prise de conscience des patients et le diagnostic précoce des praticiens.

Un projet aux objectifs multiples qui répond à l'intérêt des communautés scientifiques de l'apprentissage automatique et de la biomédecine.

La première phase du projet fournira une approche robuste pour classer simultanément les gènes et les documents scientifiques se rapportant à ces gènes dans des co-clusters homogènes. Cette nouvelle méthode étend les algorithmes classiques de co-clustering en intégrant des ensembles de données hétérogènes à grande échelle pour guider le partitionnement des documents scientifiques. Cette stratégie assurera une identification robuste des co-clusters documents-gènes riches en informations.

La deuxième phase du projet se concentrera sur la découverte des traits phénotypiques et des expositions environnementales les plus représentatifs, ainsi que de leurs relations causales pour chaque sous-ensemble de documents. Pour ce faire, nous explorerons d'abord les représentations en vecteurs de mots qui se sont déjà avérés très efficaces pour récupérer automatiquement les informations syntaxiques et sémantiques d'un corpus. En particulier, les représentations de vecteurs de mots démontrent de grandes capacités pour la découverte de mots synonymes, où synonyme signifie ici des mots qui se trouvent dans le même contexte sémantique dans un corpus.

Résultats

Les principaux résultats de la première phase sont (i) un algorithme original de fouille de textes basé sur des données multisources, (ii) des sous-corpus riches en informations correspondant à des co-clusters documents-gènes et (iii) des groupes de gènes appris automatiquement avec l'algorithme de partitionnement. Les groupes de gènes seront d'un grand intérêt pour la communauté biomédicale, car de nouvelles associations de gènes pourraient déclencher de nouvelles expériences sur d'éventuelles cibles thérapeutiques. Les communautés de fouille de texte et du traitement du langage naturel bénéficieront également de ce nouvel algorithme de co-clustering qui améliore la recherche d'informations à partir de grands corpus biomédicaux. Les principaux résultats de la deuxième phase sont (i) l'identification du phénome et de l'exposome des maladies complexes humaines, (ii) l'apprentissage de réseaux de causalité qui associent les traits phénotypiques, les symptômes et les facteurs de risque et (iii) la mise en oeuvre d'une application web et d'un librairie source pour la visualisation des relations de causalité des maladies.

Perspectives

Ce projet traite de questions cruciales de santé publique, car la découverte de nouveaux déterminants environnementaux ou de traits phénotypiques d'une maladie pourrait aider à établir des recommandations efficaces et favoriser un diagnostic plus précoce. Les nouvelles méthodes analytiques proposées par GePhEx permettent la découverte automatique et systématique des expositions et des traits phénotypiques associés. La méthodologie et l'application web qui en résulteraient faciliteront les études des professionnels de la santé et des chercheurs sur les maladies humaines complexes. En particulier, GePhEx fournira un package Python facile à utiliser avec un code source ouvert disponible gratuitement sous une licence publique générale. Le logiciel résultant de ce projet sera également accessible en ligne via une application web conviviale.

Productions scientifiques et brevets

Affeldt, S., Labiod, L. & Nadif, M. Regularized bi-directional co-clustering. Stat Comput 31, 32 (2021).
doi.org/10.1007/s11222-021-10006-w

Affeldt, S., Labiod, L. & Nadif, M. Ensemble Block Co-clustering: A Unified Framework for Text Data. Proceedings of the 29th ACM International Conference on Information &
Knowledge Management. Association for Computing Machinery, CIKM20, 5–14. 2020
doi.org/10.1145/3340531.3412058

Affeldt S, Labiod L & Nadif M. Regularized Dual-PPMI Co-clustering for Text Data. SIGIR '21: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. (2021)
sigir.org/sigir2021/accepted-papers/

Affeldt, S., Labiod, L. & Nadif, M. (2021). Approche ensemble pour le co-clustering par blocs sur des données textuelles: Application au biomédical. Extraction et Gestion des Connaissances: Actes EGC'2021.
editions-rnti.fr

Résumé de soumission

Les dix dernières années ont été marquées par une expansion considérable du nombre de diverses données omiques, ce qui a entraîné une explosion des jeux de données biologiques hétérogènes accessibles au public. Les technologies récentes de génotypage et de profilage permettent à la communauté scientifique d'étudier les altérations génomiques liées aux maladies humaines complexes. Par ailleurs, il apparait de plus en plus clairement que certaines maladies complexes résultent de l'interaction entre les gènes d'un individu et des facteurs environnementaux, comme c'est le cas pour les maladies pulmonaires ou coronariennes. Alors que des traitements prometteurs sont à l’étude, les professionnels de la santé préconisent progressivement des interventions médicales éducatives ou préventives, pour lesquelles les avantages cliniques ont été évalués positivement par des études antérieures.

De telles interventions comportent la transmission de connaissances médicales sur des traits phénotypiques ou symptômes et améliorent ainsi la survie du patient, par exemple en initiant des tests plus précoces. Ces interventions expliquent également les mesures pouvant contrecarrer l'apparition d'une maladie complexe (par exemple, diabète, maladies respiratoires chroniques ou polyarthrite rhumatoïde) en évitant ou en modifiant les facteurs de risque extrinsèques essentiels (tels que la consommation de tabac ou d'alcool, une mauvaise alimentation). Il est également crucial d'identifier les effets causaux combinés des facteurs environnementaux afin de proposer des traitements efficaces avec peu ou pas d'effets secondaires. Par conséquent, les interventions efficaces doivent être basées sur les informations les plus complètes et les plus précises concernant les traits phénotypiques (phénome) et les expositions environnementales (exposome) dans le contexte d'une maladie complexe.

Le projet GePhEx (Genome-Phenome-Exposome) propose de découvrir automatiquement le phénome et l'exposome associés à des altérations génomiques dans le contexte d'une maladie humaine complexe donnée et d'apprendre les relations de causalité entre symptômes, facteurs environnementaux et gènes impactés. Ce projet traite de problèmes critiques de santé publique, car la découverte de nouveaux déterminants environnementaux ou de traits phénotypiques d'une maladie pourrait aider à établir des recommandations médicales efficaces et à favoriser un diagnostic plus précoce. Les nouvelles méthodes analytiques proposées par GePhEx permettront (i) la découverte automatique des facteurs environnementaux et des traits phénotypiques associés à partir d'un grand nombre de données biologiques et de publications scientifiques accessibles au public, (ii) de relier de manière causale les entités phénome, exposome et génome dans le contexte d'une maladie spécifique (iii) de fournir une application Web facile à utiliser pour améliorer la prise de conscience des patients et le diagnostic précoce des praticiens.

Les êtres humains sont exposés à de nombreux facteurs environnementaux tout au long de leur vie (tabagisme, pollution atmosphérique, déséquilibre alimentaire) et une part non négligeable du risque de maladie complexe est probablement due aux interactions entre ces expositions et des facteurs génétiques. De nouvelles méthodes d'apprentissage automatique sont nécessaires pour analyser des données complexes comportant à la fois des informations sur le génome et sur l'environnement. La découverte de causes environnementales, agissant seules ou de concert, pourrait renforcer les bases de l'évaluation des risques et de la prévention. GePhEx propose des outils d'analyse et de visualisation de données volumineuses pour accélérer les recherches sur l'exposome humain, établir des mécanismes de causalité des maladies et promouvoir les interventions de santé publique.

Severine Affeldt (Centre Borelli (CNRS, UMR 9010))

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

UDPESCARTES-Centre Borelli Centre Borelli (CNRS, UMR 9010)

Aide de l'ANR 109 080 euros
Début et durée du projet scientifique : novembre 2019 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.