Inférence de l'histoire démographique à partie des grands jeux de données de polymorphisme A.D.N. – demochips
Les méthodes de génétique des populations permettent aux chercheurs d’inférer des événements historiques, sur des échelles de temps pour lesquelles les données historiques sont absentes ou lacunaires. Des méthodes fondées sur la coalescence ont été développées pour inférer ces événements. Elles ont été appliquées avec succès sur des données de marqueurs classiques de génétique des populations (par exemple microsatellites, séquences A.D.N.). Elles ont permis par exemple de déterminer si des populations avaient connu des événements de croissance ou de déclin, de migration entre populations avoisinantes, ou si elles résultaient de phénomènes de mélange entre deux populations ou plus. Les paramètres de ces phénomènes démographiques (par exemple les taux de croissance et de migration, les tailles ancestrales de population, les taux de mélange) pouvaient être estimés dans une certaine mesure. La quantité de données de polymorphisme A.D.N. disponible augmente actuellement de plusieurs ordres de magnitude du fait du développement récent de nouveaux jeux de données de polymorphisme génétique : puces à A.D.N. (plusieurs centaines de milliers, voire quelques millions de polymorphisme de nucléotides SNPs) et génomes complets. Certains de ces SNPs sont dans des régions codantes ou régulatrices et peuvent de ce fait être soumis à la sélection, mais d’autres sont en dehors de ces régions et peuvent donc être utilisés pour des inférences démographiques. Cette forte augmentation de la quantité de données génétiques disponibles peut amener à la conclusion logique que des événements démographiques pourraient être inférés beaucoup plus précisément qu’auparavant grâce à ces nouveaux jeux de données. Le principal problème est de développer de nouvelles méthodes adaptées à ce type de données, étant donné qu’elles différent des données classiques à la fois par la quantité de polymorphisme disponible, mais aussi par la présence de locus liés, ce qui offre la possibilité d’utiliser le déséquilibre de liaison dans le processus d’estimation. Le but de ce projet est de développer de nouvelles approches fondées sur la coalescence (ABC et MCMC) adaptées à ce type de données et de les appliquer à des jeux de données de polymorphisme chez l’homme et Drosophila Melanogaster. La première étape sera de développer un programme de simulation capable de simuler ces grands jeux de données. Ensuite, le programme sera utilisé directement pour développer des méthodes d’ABC, mais aussi comme un moyen de tester la validité de ces différentes méthodes. Pour les méthodes MCMC, nous étudierons leur optimisation à ces grands jeux de données et si des stratégies optimales de sous-échantillonnage peuvent être définies pour limiter le temps de calcul. Dans une troisième étape, nous appliquerons ces méthodes sur des données issues de populations humaines et de drosophiles. Chez l’humain, la première question sera de savoir si on peut inférer des histoires démographiques différentes sur des populations soumises à des modes de vies différents : agriculteurs, éleveurs et chasseur-cueilleurs. La deuxième question portera sur l’inférence de l’histoire des événements de migration et de mélange en Asie Centrale. Ces populations sont-elles le résultat d’événements de mélange entre les populations voisines européennes et asiatiques, ou sont elles au contraire parmi les premières zones colonisées après l’émergence hors d’Afrique de l’homme moderne ? Nous utiliserons aussi la méthode pour estimer une carte des taux de recombinaison le long du génome au sein des différentes populations humaines en tenant compte de leur démographie. Enfin chez la drosophile, nous nous attacherons à estimer qu’elles ont été les modes d’expansion de cette espèce en Afrique et a quelle époque elle est sortie d’Afrique.
Coordinateur du projet
Monsieur Frédéric AUSTERLITZ (Laboratoire Eco-Anthropologie et Ethnobiologie) – austerlitz@mnhn.fr
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
SAE - UMR 7138 UMR Systematique, Adaptation, Evolution
INSERM INSERM
GEH - URA 3012 Institut Pasteur-Unité de Génétique Evolutive Humaine, /CNRS-URA 3012
LBIP - UMR 7205 Laboratoire de Biologie Intégrative des Populations
EAE - UMR 7206 Laboratoire Eco-Anthropologie et Ethnobiologie
Aide de l'ANR 259 437 euros
Début et durée du projet scientifique :
décembre 2012
- 36 Mois