Flash Info
CE45 - Mathématiques et sciences du numérique pour la biologie et la santé

Evaluation in silico de protéines – PISA

Résumé de soumission

L'ingénierie des protéines vise à créer des protéines artificielles utiles dans les domaines de la santé, chimie verte, ou environnement. La conception de protéines artificielles est un processus long et coûteux faisant intervenir simulations et prédictions par ordinateur, suivies de validations expérimentales en laboratoire. Les méthodes de design computationnel de protéines cherchent à prédire une séquence d'acides aminés se repliant en une structure tri-dimensionnelle de protéine cible. La synthèse expérimentale de séquences protéiques prédites par ces méthodes est limitée par les approximations effectuées sur les modèles de protéines et les fonctions d'énergie empiriques utilisées. Dans ce contexte, il est nécessaire de disposer d'outils d'évaluation in silico afin de maximiser le taux de succès lors de la synthèse expérimentale. Parmis ces outils, le "forward folding" constitue le test le plus rigoureux. Le principe du "forward folding" est d'utiliser une méthode de prédiction de structures de protéines afin de vérifier si une séquence de protéine artificielle conçue par modélisation informatique se replie en sa structure tri-dimensionnelle cible. Naturellement, la fiabilité de ce test dépend directement de la qualité et des caractéristiques de la méthode de prédiction de structures de protéines employée. Dans la nature, de nombreuses séquences de protéines se replient en la même structure tri-dimensionnelle. Il est bien connu que deux protéines ayant au delà de 30%
de leur séquence en commun se replient généralement de la même manière. Cependant, il est également bien connu qu'une simple mutation peut déstabiliser la protéine et empêcher le processus de repliement d'aboutir.
Une séquence de protéine artificielle est fortement susceptible de contenir de telles mutations, de part la nature imparfaite du processus de modélisation. De fait, les nombreuses méthodes de prédiction de structures de protéines se basant sur la similarité de séquence ne sont pas adaptées pour le "forward folding": elles vont identifier la structure cible par le fort taux de similarité entre la séquence conçue par modélisation et la séquence naturelle, et utiliser cette structure comme point de départ dans la construction du modèle tri-dimensionnel. Etant donné que la grande majorité des séquences protéiques artificielles ont un taux de similarité avec la séquence naturelle supérieur à 30%
, toute méthode de prédiction de structures de protéines basée directement ou indirectement sur l'homologie de séquence obtiendra un fort taux de faux positifs lors de l'évaluation in silico par "forward folding".
L'approche par fragments de protéines a l'intérêt de ne pas utiliser d'informations globales sur la séquence des protéines mais plutôt de se focaliser sur l'assemblage de petits fragments contigus issus de structures connues. Par conséquent, cette méthode est particulièrement bien adaptée pour l'évaluation in silico de protéines artificielles par "forward folding".
L'objectif de ce projet est d'améliorer la fiabilité des méthodes de design computationnel de protéines par l'apport de techniques d'évaluation in silico de protéines artificielles de type "forward folding" basées sur une approche de prédiction de structures de protéines par fragments. Cette approche sera construite autour de techniques d'intelligence artificielle hybrides combinant réseaux de neurones artificiels profonds et algorithmes à estimation de distribution. Plus précisément, une architecture de réseaux de neurones récurrent permettra de construire des librairies de fragments de structures protéiques. Ensuite, un algorithme à estimation de distribution sera développé pour l'assemblage de fragments en modèles de structures. L'estimation de distribution sera effectuée en estimant les paramètres d'un champ de Markov aléatoire représentant les interactions entre les différents fragments. Cette approche sera validée dans le cadre de divers projets de conception de protéines artificielles.

Coordination du projet

David Simoncini (Institut de Recherche en Informatique de Toulouse)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

IRIT Institut de Recherche en Informatique de Toulouse

Aide de l'ANR 171 180 euros
Début et durée du projet scientifique : mars 2021 - 30 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter