MN - Modèles Numériques

Modèles graphiques avancés pour les études d'association à l'échelle du génome – SAMOGWAS

Résumé de soumission

En recherche biomédicale, le génotypage haut débit génère des données massives (de quelques centaines de milliers à 1 ou 2 millions de marqueurs génétiques pour chaque individu observé). En aval de cette génération, les études d'association pangénomiques (GWAS) ont pour but d'identifier les variations de l'ADN responsables des maladies génétiques, et doivent traiter ces vastes quantités de données. De plus, ces données, qui consistent en marqueurs génétiques appelés « SNPs », sont complexes puisque caractérisées par des dépendances de courte et longue distances entre les variables, le long du génome. Ces dépendances sont appelées déséquilibre de liaison (DL). Le fil rouge de ce projet interdisciplinaire est le concept de modèle graphique utilisé pour la fouille de données à l' échelle du génome. Le projet développera une méthodologie pour proposer des stratégies d'études GWAS basées sur la création et l'utilisation de réseaux Bayésiens, d'une part, et sur celle de forêts aléatoires, d'autre part. Il existe très peu d'approches modélisant les dépendances entre SNPs qui soient capables de passer à l'échelle du génome.

Complexité et grande dimension des données plaident en faveur de l'utilisation de réseaux Bayésiens (RB) spécifiques pour modéliser le DL : une nouvelle classe de RB sera définie, les forêts de modèles hiérarchiques à classes latentes (ou modèles F). Un tel modèle permettra de réduire la taille des données grâce aux variables latentes, autorisant ainsi le passage à l'échelle. L'intégration de données transcriptomiques, et d'informations tirées de l'exploitation d'ontologies et de banques d'annotation de gènes, renforcera la qualité des prédictions d'association génotype- maladie. Similairement, le projet investiguera le potentiel des forêts aléatoires (ou modèles T) , pour les études GWAS, selon cette même approche intégrative. De plus, l'intégration de modèles sera étudiée : un modèle hybride intégrant les modèles F et T sera proposé et évalué. Par ailleurs, devra être évaluée la puissance des stratégies GWAS basées sur l'utilisation brute des modèles, et celle des variantes intégratives. Dans ce but, sera développée une méthode de simulation rapide de jeux de données réalistes pour études GWAS. En résumé, ce projet concevra, implémentera et évaluera des algorithmes avancés et des stratégies destinés à progresser dans le domaine des GWAS.

Modélisation d'un système naturel complexe décrit par des données massives, passage à l'échelle, simulation de données massives et calcul intensif sur grilles sont les ingrédients du projet. Qu'il s'agisse de gagner en vitesse de traitement ou de permettre de passer à l'échelle, chaque étape est potentiellement concernée : la modélisation, l'utilisation du modèle dans un objectif d'étude GWAS, la simulation de données GWAS, l'évaluation intensive des stratégies GWAS. Un atout considérable du projet est la possibilité d'évaluer les meilleures stratégies développées, sur des données biologiques réelles.

Le projet SAMOGWAS contribuera scientifiquement à l'avancée des techniques d'apprentissage automatique, de fouille de données et d'extraction de connaissances appliquées à des données de très grande dimension, et fortement corrélées. De telles avancées bénéficieront de l'intégration de données hétérogènes. Servant l'objectif de progrès en recherche biomédicale, grâce à des progrès en informatique théorique, ce projet multidisciplinaire et méthodologique élaborera des prototypes logiciels innovants. Enfin, la génétique de la biologie végétale est en train de s'ouvrir aux analyses pangénomiques. Ainsi, non seulement le secteur de la recherche biomédicale bénéficiera-t-il à terme de la méthodologie et des prototypes développés (médecine personnalisée  ; contrôle des dépenses de santé publique dans les pays occidentaux, à population vieillissante)  ; les secteurs de la biologie animale et végétale sont également concernés au titre de la sélection de phénotypes d'intérêt agronomique.

Coordination du projet

Christine SINOQUET (Laboratoire d'Informatique de Nantes Atlantique - UMR CNRS 6241) – christine.sinoquet@univ-nantes.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

ProBayes ProBayes
GIGA-R GIGA-R / Institut Montefiore
LPMA Laboratoire de Probalité et Modèles Aléatoires - UMR CNRS 7599
l'institut du thorax Unité INSERM UMR 1087 / CNRS UMR UMR 6291
LINA Laboratoire d'Informatique de Nantes Atlantique - UMR CNRS 6241

Aide de l'ANR 398 941 euros
Début et durée du projet scientifique : septembre 2013 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter