Blanc SIMI 4 - Blanc - SIMI 4 - Physique des milieux condensés et dilués 2013

Des séquences à la structure : méthodes de physique statistique pour l’inférence des contraintes co-évolutionnaires dans les protéines et ARNs – COEVSTAT

Résumé de soumission

Au cours de l'Evolution, la structure et la fonction des biomolécules, en particulier les protéines et les ARN, sont remarquablement conservées, bien que leurs séquences (d’amino-acides ou de nucléotides) varient considérablement. Cette variabilité est cependant contrainte par la conservation structurelle qui force les résidus (amino-acides ou nucléotides) à coévoluer : les résidus proches sur la structure tridimensionnelle de la molécule (mais pouvant être distants le long de la séquence) ont tendance à évoluer de manière corrélée. Grâce à l'émergence de méthodes de séquençage rapides et économiques, les bases de données s’acroissent exponentiellement. Un défi important est d’utiliser ces données et la variabilité observée dans les familles de protéines et ARN homologues (évolutionnairement reliés) pour inférer leurs contraintes coévolutionnaires et avoir ainsi un aperçu de leurs structures et fonctions.
Selon le principe d’entropie maximale, ce problème d’inférence correspond à un problème inverse de physique statistique : à partir des corrélations mesurées entre les variables d’un modèle de Potts, on doit inférer le modèle lui-même, c’est-à-dire les les couplages et les champs locaux du Hamiltonien du modèle. Ce problème inverse est intrinsèquement plus dur que le problème direct, à savoir le calcul des observables thermodynamiques à partir du Hamiltonien. Il a fait l’objet récemment de nombreux travaux en physique statistique, et s’est mué en un domaine de recherche très actif à part entière.
L’objectif principal de ce projet est d’exploiter cette correspondance et d’importer la richesse méthodologique de la physique statistique moderne des systèmes désordonnés vers l’inférence biologique, en allant bien au-delà des méthodes actuelles fondées sur l’approximation de champ moyen. Nous désirons développer des méthodes computationnellement efficaces et précises pour inférer les contraintes coévolutionnaires. Nous utiliserons ces dernières pour prédire les cartes de contact des protéines sur une grande échelle (plus de 4000 familles connues contiennent plus de 1000 séquences, un nombre suffisant pour l’inférence), cartes qui nous permettront ensuite de prédire leurs structures tertiaires (tridimensionnelles). Nous utiliserons également les techniques développées pour étudier les contraintes coévolutionnaires des ARN, dans le but d’aller au-delà de la prédiction de la structure secondaire et des appariements de type Watson-Crick.
Ce projet nécessite une collaboration étroite et une fertilisation réciproque entre physique statistique et biologie computationnelle. Les approches physiques devront être adaptées aux besoins spécifiques de l’inférence fondée sur les séquences, par exemple en utilisant l’information biologique disponible à priori, en permettant l’inclusion de ‘gaps’ et d’insertions. Elles devront aussi être validées sur des données synthétiques et réelles. A son tour, l’analyse des données biologiques soulève des questions intéressantes, comme la séparation des contributions structurelles et phylogénétiques (historiques) aux corrélations entre résidus, la généralisation de modèles de Potts à un nombre variable de spins pour dépasser les modèles de Markov cachés utilisés pour la détection d’homologie, le besoin de résoudre des problèmes inverses en présence d’un nombre limité de données. Ces questions sont nouvelles et fondamentales du point de vue de la physique statistique.
Notre d’objectif est d’effectuer une percée (a) dans l’utilisation des approches de physique statistique pour résoudre les problèmes inverse, (b) dans l’application interdisciplinaire de ces méthodes pour décrire les systèmes biologiques complexes, (c) dans l’exploitation de l’information de coévolution des séquences pour la compréhension de la structure et la fonction des protéines et des ARN. Notre projet est à la fois fondamental et concret, avec un fort impact attendu en physique statistique et en biologie computationnelle.

Coordination du projet

Simona COCCO (UMR 8550 Laboratoire de Physique Statistique de l'Ecole Normale Supérieure)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

LPT-ENS Laboratoire de Physique Theorique de L'Ecole Normale Supérieure
LGM-UPMC Laboratoire de Génomique de Microorganismes de l' Université Pierre et Marie Curie
UMR 8550 LPS-ENS UMR 8550 Laboratoire de Physique Statistique de l'Ecole Normale Supérieure

Aide de l'ANR 257 398 euros
Début et durée du projet scientifique : septembre 2013 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter