Machines de Boltzmann restreintes pour la modélisation des systèmes physiques : théorie et applications aux protéines – RBMPro
La modélisation microscopique des systèmes physiques complexes, c'est-à-dire ayant des interactions fortes et hétérogènes, a jusqu'ici connu des succès limités. Un exemple nous est fourni par les protéines : en dépit d'efforts considérables, obtenir des modèles précis, capables de prédire comment les protéines se replient, interagissent avec les autres molécules, ou changent de propriétés lorsque l'on mute (modifie) un ou plusieurs de leurs aminoacides semble toujours hors de portée, sauf pour les petites protéines. Il est donc tentant d'utiliser l'apprentissage machine, c'est-à-dire l'extraction automatique d'information à partir des données, pour établir des modèles effectifs de ces systèmes complexes. Dans ce projet, nous nous focalisons sur les Machines de Boltzmann Restreintes (RBM), qui représentent une architecture fondamentale dans l'apprentissage machine non supervisé. Dans sa formulation la plus simple, une RBM est une machine de Boltzmann sur un graphe bipartite, avec une couche visible qui représente les données, connectée à une couche cachée censée extraire et expliquer les caractéristiques statistiques de ces données.
Les objectifs de RBMPro sont à la fois doubles et complémentaires : (1) exploiter et pousser plus avant les outils et les concepts de la physique statistique pour comprendre comment les RBM fonctionnent et apprennent à partir des données; (2) utiliser et étendre les techniques de biologie moléculaire et les technologies de criblage afin de générer les données quantitatives de haut débit nécessaires pour appliquer les RBM à l'étude de la relation entre séquence et fonction des protéines, en se concentrant sur le système modèle de la trypsine. Notre projet est donc à a fois théorique, expérimental et computationnel. Nous pensons qu'il amènera de grands progrès dans la modélisation des propriétés fonctionnelles et structurelles des protéines, et qu'il aidera à transformer l'apprentissage machine, dont l'importance croît actuellement de manière impressionnante, en un outil contrôlé et pratique pour modéliser les systèmes physiques complexes.
RBMPro sera dirigé par R. Monasson, Directeur de Recherche au CNRS, hébergé au Laboratoire de Physique Théorique de l'Ecole Normale Supérieure. R.M. est un spécialiste de la physique statistique des systèmes désordonnés et de ses applications interdisciplinaires, en particulier vers l'informatique, l'apprentissage machine et les systèmes biologiques (neuroscience, génomique). La réalisation du projet sera partagée entre une équipe théorique à l'ENS (S. Cocco et R.M.) et une équipe expérimentale/computationnelle au Collège de France (C. Nizak et O. Rivoire), qui a récemment acquis des équipements nécessaires aux techniques de pointe de micro-fluidique et aux expériences de mutagénèse à large échelle. S.C. développe des modèles de physique statistique et des méthodes d'inférence pour l'analyse de données biologiques, en particulier pour l'étude des protéines et en neuroscience; C.N. développe et réalise des expériences de criblage à haut débit dites de "phage display" et de micro-fluidique par gouttelettes, combinées avec du séquençage massif; O.R. étudie l'évolution moléculaire en combinant analyse statistique de séquences, modèles théoriques et évolution in vitro.
Coordinateur du projet
Monsieur remi MONASSON (Lab. Theoretical & Statistical Physics ENS - UMR 8549-8550)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
CIRB CNRS UMR7241 - INSERM U1050 Equipe "Biologie statistique" (Centre interdisciplinaire de recherche en biologie)
LPT-LPS-ENS Lab. Theoretical & Statistical Physics ENS - UMR 8549-8550
Aide de l'ANR 372 600 euros
Début et durée du projet scientifique :
novembre 2017
- 48 Mois