Elaboration et évaluation de nouvelles méthodes d'inférence statistique en Génétique des Populations – MISGEPOP
Ce projet qui rassemble mathématiciens et généticiens des populations a pour objectif de développer de nouvelles méthodes d'inférence statistiques pour l'analyse des données moléculaires récoltées sur des individus. D'une part, ces méthodes permettront d'analyser des scénarios évolutifs complexes (plusieurs populations reliées par une phylogénie, avec possibilité d'admixture et d'échanges migratoires). D'autre part, elles prendront en compte de façon explicite l'aspect spatial. Les inférences porteront sur les paramètres de ces scénarios, qui caractérisent principalement l'histoire démographique des populations et les modèles mutationnels des marqueurs moléculaires utilisés. La prise en compte de l'espace permettra de caractériser de façon efficace des épisodes évolutifs mal pris en compte par les analyses existantes, tels que des bioinvasions ou encore des modifications d'aires induites par les changements climatiques au niveau de la planète.La manière envisagée pour aborder des scénarios complexes combinera deux algorithmes: un premier algorithme d'échantillonnage préférentiel permettra d'estimer la vraisemblance des données pour un scénario évolutif et un jeu de paramètre fixés; un second algorithme (à déterminer) permettra d'explorer l'espace des paramètres.Pour les analyses spatialisées, trois directions seront explorées. La première concernera un algorithme décrivant la structure tri-dimensionnelle (espace 2D + temps) de l'arbre généalogique des gènes échantillonnés. La seconde utilisera une approche fondée sur l'utilisation de statistiques résumées (Approximate Bayesian Computation). Cette dernière, a priori moins performante, présente l'intérêt d'être très souple d'utilisation et compatible avec les scénarios les plus complexes. Enfin, une troisième approche consistera à repérer les limites géographiques des populations par la quantification des ruptures aux flux de gènes. Ces trois approches ont déjà fait leurs preuves dans quelques situations tests. Dans ce projet, nous procéderons à leur évaluation systématique ainsi qu'à des améliorations diverses.Toutes ces approches reposent sur des méthodes statistiques (échantillonnage préférentiel et méthodes de Monte Carlo par chaînes de Markov) perfectibles et, en particulier, le projet prévoit le développement d'une nouvelle approche (Population Monte Carlo) qui marrie les deux précédentes en introduisant de plus une capacité d'apprentissage sur la loi de proposition. Les développements envisagés incluent l'adaptation séquentielle (de type pseudo-Gibbs) des noyaux de transition, ainsi que le développement d'algorithmes efficaces dans une problématique transdimensionnelle.Tous les développements méthodologiques seront testés sur données simulées. Ils seront également appliqués à des exemples biologiques concrets (données publiées et/ou produites par nos soins). Enfin, ils seront mis à la disposition de la communauté via des logiciels conviviaux créés à cet effet.
Coordination du projet
Organisme de recherche
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
Aide de l'ANR 22 325 euros
Début et durée du projet scientifique :
- 36 Mois