GENM - Génomique

Méthodes Bioinformatiques et Statistiques pour les expériences de Métagénomique – CBME

Résumé de soumission

La génomique microbienne à grande échelle est un domaine où des progrès scientifiques importants et rapides sont attendus, avec à la clé des applications de grande portée, notamment dans les domaines de la chimie durable, la bioconversion et la santé. C'est un domaine où les possibilités ouvertes par les technologies de séquençage à haut débit sont particulièrement bien adaptées. La métagénomique bactérienne est devenue accessible et peut se décliner dans différents types d?écosystèmes. Cependant, la technologie ne résout pas tous les problèmes, et il y a des obstacles méthodologiques, dont certains sont parfois sous-estimés dans les projets proposés. En particulier les aspects de calcul bio-informatique et de traitement statistique méritent une attention particulière. En premier lieu, le volume très important des données implique la mise en place de bases de données et des outils de gestion de données appropriés. Ensuite, la mise en relation de 10^7 à 10^8 fragments courts avec des catalogues de gènes ou de fragments longs comportant entre 10^5 et 10^6 éléments implique l'utilisation d'outils de pattern matching très performants bien adaptés. La présence de quelques espèces très abondantes risque de cacher des espèces plus rares mais qui pourraient se révéler plus intéressantes. Cette question est à relier au nombre d'échantillons analysés : plus ils sont nombreux plus on a de chance de trouver des espèces (ou des gènes ou des fragments longs) pertinents...mais plus l'étude coûte cher. Il y a donc clairement un problème de plan d'expérience à optimiser en fonction de ce que l'on sait de la répartition de l'abondance des espèces, mais aussi de la puissance des tests statistiques. De plus, l'analyse statistique elle-même pose des problèmes nouveaux: elle est rendue difficile par 3 éléments : (1) la multiplicité des tests de comparaison entre conditions, qui est de l'ordre du nombre d'éléments du catalogue pose le problème du contrôle des faux positifs. (2) il y a beaucoup plus de variables analysées (les éléments du catalogue) que d'individus (les échantillons) (3) on a des données de comptages, c'est à dire des données discrètes, alors que les analyses classiques sont faites sur des données continues. La combinaison de ces trois difficultés complique l'analyse statistique qui demande de construire des outils adaptés. L'objectif du projet CBME est de fournir des outils bioinformatiques et statistiques adaptés aux expériences de métagénomique et de donner des éléments pour déterminer le nombre d'échantillons nécessaires pour atteindre avec une probabilité raisonnable les objectifs scientifiques viés par l'étude. C'est un projet général qui ne cible pas une expérience particulière de métagénomique. Cependant ce projet bénéficiera de l'implication de plusieurs de ses membres dans des projets de métagénomique dans différents écosystèmes.

Jean-Jacques DAUDIN (Mathématiques et Informatique Appliquées) – pivot4_jean-jacques.daudin@agroparistech.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Mathématiques et Informatique Appliquées
Unité Mathématique, Informatique et Génome

Aide de l'ANR 190 016 euros
Début et durée du projet scientifique : décembre 2008 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.