CE45 - Interfaces : mathématiques, sciences du numérique – biologie, santé 2025

Décoder l'évolutivité des protéines – ProtEvolv

Résumé de soumission

Ce projet vise à développer une méthode prédictive pour comprendre et quantifier l’évolvabilité des protéines — c’est-à-dire leur capacité à acquérir de nouvelles fonctions par mutation et sélection. Bien que les récents progrès en matière de modèles probabilistes génératifs, comme l’analyse des couplages directs (DCA), les machines de Boltzmann restreintes (RBM) et les modèles de langage protéique (pLM), aient considérablement amélioré la prédiction des structures protéiques et des paysages mutationnels, ces outils restent limités dans leur capacité à anticiper les innovations évolutives. Notre objectif est de dépasser la simple prédiction des effets mutationnels pour atteindre une compréhension mécanistique des facteurs qui rendent certaines séquences protéiques plus évolutives que d’autres.

Pour y parvenir, le projet combine modélisation computationnelle et validation expérimentale à grande échelle. En analysant des alignements multiples de séquences (MSA) et en extrayant des signatures statistiques contextuelles au sein de familles de protéines, nous développerons des métriques robustes et basées sur les séquences pour estimer la robustesse mutationnelle et l’évolvabilité fonctionnelle. Ces prédicteurs seront comparés à des données expérimentales issues de deux systèmes enzymatiques : les kinases ROK et les bêta-lactamases. Ces enzymes offrent des modèles complémentaires — les kinases ROK, d’intérêt industriel, présentent une activité promiscue vis-à-vis des substrats, tandis que les bêta-lactamases jouent un rôle clé dans la résistance aux antibiotiques, enjeu majeur de santé publique.

Le projet s’articule autour de trois tâches principales :
La tâche 1 est consacrée à la prédiction de la robustesse mutationnelle — la capacité d’une protéine à maintenir sa fonction malgré des modifications de séquence. Nous construirons et comparerons des modèles basés sur la DCA, les RBM et les pLMs pour en extraire des mesures entropiques traduisant la tolérance contextuelle aux mutations. Ces prédictions seront validées expérimentalement via des analyses de mutations profondes (DMS), incluant des mutations simples et doubles, afin de cartographier empiriquement les paysages de fitness de plusieurs protéines homologues.
La tâche 2 cible la prédiction de la promiscuité fonctionnelle et de l’évolvabilité. Des modèles à variables latentes seront entraînés pour identifier les signatures de séquence associées à la spécificité ou à la multi-spécificité. Ces prédictions seront testées par des cycles itératifs de mutagenèse génomique et de sélection relâchée, afin de générer et suivre des populations enzymatiques divergentes. La capacité de ces séquences à évoluer vers de nouveaux substrats servira d’indicateur empirique de l’évolvabilité.
La tâche 3 explorera les trajectoires évolutives en simulant des chemins mutationnels plausibles entre des variantes protéiques présentant des différences en robustesse ou en spécificité. Ces trajectoires in silico seront confrontées aux résultats expérimentaux des essais de diversification. Certains intermédiaires seront synthétisés et testés afin d’évaluer la pertinence des modèles.

L’approche interdisciplinaire du projet établit un pont entre physique statistique, apprentissage automatique et biologie moléculaire, en s’appuyant à la fois sur l’innovation théorique et les avancées technologiques en mutagenèse, séquençage et criblage fonctionnel à haut débit. En combinant modélisation prédictive et validation ciblée, nous chercherons à révéler les déterminants de séquence de l’évolvabilité des protéines, à guider des stratégies de bio-ingénierie, et à fournir de nouveaux outils pour anticiper et contrer la résistance aux antibiotiques. In fine, le cadre développé offrira une stratégie généralisable pour quantifier l’évolvabilité dans diverses familles protéiques, avec des applications allant de la biologie évolutive fondamentale à la biologie synthétique et à l’innovation biomédicale.

Martin Weigt (SORBONNE UNIVERSITÉ)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

CQSB SORBONNE UNIVERSITÉ
IC -U1016 INSTITUT NATIONAL DE LA SANTE ET DE LA RECHERCHE MEDICALE
GM COMMISSARIAT À L'ÉNERGIE ATOMIQUE ET AUX ÉNERGIES ALTERNATIVES
LPENS Laboratoire de physique de l'ENS
University of British Columbia

Aide de l'ANR 740 976 euros
Début et durée du projet scientifique : mars 2026 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.