DS0101 -

Nouveaux outils statistiques pour l'analyse spatiale des données génétiques – GenoSpace

Résumé de soumission

Les organismes vivants occupent généralement des territoires à caractère continu. Pourtant, il
existe de véritables obstacles à l'élaboration de modèles statistiques pertinents qui tiennent
compte des informations spatiales et des données génétiques d'une manière satisfaisante. Ces
obstacles entravent de fait notre compréhension de la biodiversité dans l'espace et le
temps. Certains modèles spatiaux parmi les plus populaires en génétique des populations reposent
ainsi sur l'hypothèse que les populations naturelles sont divisées en dèmes discrets, ce qui n'est
généralement qu'une approximation des processus réels mis en jeu. D'autres approches prédisent une
répartition spatiale des individus qui s'accorde mal avec les observations biologiques.

Des progrès récents en génétique des populations théorique ont conduit à proposer un nouveau modèle,
baptisé Lambda-Fleming-Viot spatial, qui contourne la plupart des limites des méthodes
actuelles. Ainsi, ce modèle considère l'habitat comme une zone réellement continue et fait émerger
une distribution stationnaire des individus dans le temps et l'espace. Une description probabiliste
simple des coordonnées ancestrales et des relations généalogiques entre les individus échantillonnés
est également disponible. Cela permet de calculer la vraisemblance de ce modèle, c'est à dire la
probabilité des données sachant les paramètres du modèle. Cependant, cette probabilité fait
intervenir un grand nombre de variables latentes (des paramètres qui ne sont pas d'un intérêt
biologique évident, mais dont les valeurs sont nécessaires pour évaluer la fonction d'intérêt). Il
est donc difficile à l'heure actuelle de déterminer si le modèle Lambda-Fleming-Viot spatial peut
servir à l'estimation de paramètres centraux en biologie tels que la densité de population ou le
taux de dispersion.

Nous avons implémenté et récemment testé un prototype d'échantillonneur bayésien qui estime la
distribution a posteriori des paramètres du modèle à partir de l'analyse de séquences génétiques
géo-référencées. Les résultats préliminaires indiquent que combiner ce nouveau modèle à des
méthodes puissantes en inférence statistique permet d'obtenir des estimations fiables de la taille
de population et du taux de dispersion. Il est également satisfaisant de noter qu'à l'exception de
la méthode proposée ici, aucune des techniques actuelles en génétique des populations ne permet
d'inférer ces deux paramètres séparément.

Ces résultats prometteurs suggèrent que le modèle Lambda-Fleming-Viot spatial définit un socle
solide pour aborder des questions biologiques importantes. Ainsi, nous évaluerons lors de ce projet
l'impact des paysages non homogènes sur la migration des individus. Nous étudierons également des
questions liées à la variabilité de la densité des populations dans l'espace et au cours de
l'évolution. En parallèle de ces extensions du modèle original, des simplifications mathématiques de
la fonction de vraisemblance seront examinées. Nous avons en effet identifié des «raccourcis»
mathématiques qui devraient simplifier considérablement les calculs et ainsi les accélérer. Les
extensions et améliorations du modèle et des techniques d'inférence développées dans ce projet
seront appliquées à l'analyse de génomes de deux espèces emblématiques à fort impact économique : la
coccinelle asiatique et la drosophile à aile tachetée. Nous quantifierons les flux de gènes et les
densités de population au sein des habitats de ces deux organismes et accèderons ainsi à une
meilleure compréhension de la biologie de ceux-ci. Des logiciels implémentant les
approches conçues dans ce projet seront developpés. Ces outils seront testés à l'aide de
simulations à grande échelle, puis mis à la disposition d'un large public scientifique à travers des
logiciels bien documentés et d'utilisation aisée.

Coordination du projet

Stephane Guindon (Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

CNRS-LIRMM Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
INRA-CBGP INRA

Aide de l'ANR 136 163 euros
Début et durée du projet scientifique : octobre 2016 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter