CE45 - Mathématiques et sciences du numérique pour la biologie et la santé

Approches geometriques multi-résolution et multi-échelle pour la determination de structures bio-moleculaires – multiBioStruct

Résumé de soumission

Ce projet se situe dans le contexte de la biologie structurale, où la géométrie des distances (DG) s’est révélée être un outil pertinent pour l'analyse et la détermination de structures biologiques, telles que les protéines. L'utilisation classique de DG se situe dans le cadre des expériences de résonance magnétique nucléaire (RMN), où à partir des distances entre paires d'atomes estimées expérimentalement, des conformations tridimensionnelles de la biomolécule doivent être identifiées. Ce problème est NP-difficile et a été abordé historiquement via l'utilisation d'heuristiques et de méthodes méta-heuristiques. Depuis quelques années, plusieurs partenaires du présent projet travaillent sur un approche de discrétisation pour DG qui permet d’utiliser un algorithme de type branche-and-prune (BP) pour l’identification de conformations tridimensionnelles. Un des points forts de cette approche de discrétisation est que le jeu des solutions DG peut être énuméré de manière exhaustive. L’idée principale dans notre projet est d’améliorer la robustesse d’une telle approche pour traiter efficacement des données incertaines et pour étendre son domaine d'applicabilité aux données génomiques et Hi-C.

Ce projet est organisé en 4 workpackages (WPs). Le WP1 et le WP2 sont axés sur les méthodologies, tandis que les WP3 et WP4 sont liés aux applications. En particulier, le principal objectif de WP1 est de définir des caractéristiques qui, étant donné les les informations RMN et la structure chimique d'une protéine, permettent de prédire une information de distance suffisamment précise pour décrire correctement les structures secondaires de la protéine. Le but principal de WP2 est de concevoir un algorithme de BP tolérant aux erreurs, qui est notamment capable de traiter des données incertaines. Le but du WP3 est d'exploiter les résultats de WP1 et WP2 afin de trouver la structure tridimensionnelle de protéines désordonnées en utilisant uniquement les déplacements chimiques en RMN, alors que WP4 appliquera les résultats de WP1 et WP2 à la génomique et aux données Hi-C.

Le coordinateur du projet a une longue expérience sur le DG s et ses applications. Ses premiers travaux sur le sujet remontent à environ 10 ans, quand il était chercheur postdoctoral à LIX (Ecole Polytechnique) sous la direction de Leo Liberti. A cette époque, la collaboration avec les scientifiques de l’Institut Pasteur ont commencé, et en particulier avec Thérèse Malliavin. Depuis lors, l'application principale sur laquelle nous nous sommes concentrés, concerne les conformations des protéines. La collaboration entre Antonio Mucherino et Jung-Hsin Lin est bien plus récente, mais est devenue plus active au cours de la dernière période grâce à un Projet CNRS PRC sur les années 2018 et 2019, qui permet aux deux partenaires de se rencontrer régulièrement et d'obtenir des progrès rapides par rapport aux idées initiales pour une collaboration.

Le consortium regroupe des scientifiques de différentes disciplines et d'horizons différents, situés en France et à Taiwan. Aucune équipe du consortium n’a une expertise similaire. Chaque partenaire recrutera un chercheur temporaire qui sera employé à plein temps sur les différents WPs du présent projet. Les autres coûts demandés sont liés à l’organisation de réunions régulières entre les partenaires (en France ou à Taiwan) et à la participation à des conférences au cours desquelles nous prévoyons de publier nos premiers résultats.

Les excellents résultats obtenus dans le contexte des données de DG avec RMN nous motivent fortement à proposer le présent projet. Si des résultats similaires sont obtenus à la fin de ce projet pour les protéines désordonnées, ainsi que pour la génomique et les données Hi-C, nous pourrons alors mettre à la disposition un outil robuste qui aura une importance cruciale dans le domaine de la biotechnologie, dans la perspective des modèles de biophysique moléculaire intégrés dans le contexte cellulaire ou génomique.

Coordinateur du projet

Monsieur Antonio Mucherino (Institut de Recherche en Informatique et Systèmes Aléatoires)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

IRISA Institut de Recherche en Informatique et Systèmes Aléatoires
BIS INSTITUT PASTEUR
LIX Laboratoire d'Informatique de l'Ecole Polytechnique
RCAS Academia Sinica / Research Center for Applied Sciences
GRC Genomics Research Center of Academia Sinica

Aide de l'ANR 361 800 euros
Début et durée du projet scientifique : décembre 2019 - 48 Mois

Liens utiles