Apprentissage profond pour la classification fonctionnelle des enzymes à activité glucidique – DEFINE
Une myriade de séquences d'enzymes à activité sur les glucides (CAZyme) s'accumulant dans nos bases de données et provenant de différents écosystèmes n'ont pas de fonction identifiée. Leur classification fonctionnelle est le goulot d'étranglement critique pour leur compréhension, pour notre surveillance de la santé des écosystèmes, pour des avancées biotechnologiques. Nous allons concevoir une architecture d’Apprentissage Profond (AP), DEFINE, capable de classer des ensembles de séquences d'enzymes par fonction et de découvrir l'existence de nouvelles fonctions et sous-classes fonctionnelles. Nous exploiterons les énormes quantités de séquences disponibles, la dernière génération de modèles de langage protéique (pLM) et la puissance de l’apprentissage non supervisé, notre récente approche ProfileView consacrée à la classification fonctionnelle des domaines, l'expérience et la robustesse de l'annotation CAZy pour une qualité primordiale d'entraînement et de test, la possibilité de tester expérimentalement l'activité catalytique d’un certain nombre de sous-familles d'enzymes et de valider leurs déterminants fonctionnels par des structures cristallographiques. La méthode doit permettre 1.d'inférer la fonction de séquences partageant des motifs similaires par transfert d’autre séquences dèjà fonctionellement caractérisées, et 2.de découvrir l'existence de nouvelles fonctions à tester en exploitant de nouveaux motifs de séquences. La grande quantité de séquences considérées dans ce projet et leur classification permettront de créer une base de données Deep-CAZy, rassemblant des données consacrées à l'expérimentation en complément de la base CAZy. DEFINE fournira la preuve de principe pour la construction d'un modèle générique de AP applicable à grande échelle à toutes les familles de protéines. La complémentarité du consortium basé sur la classification fonctionnelle et l’AP, la biologie des CAZymes, la biochimie et la cristallographie garantira le succès du projet.
Coordination du projet
Alessandra Carbone (Sorbonne Université)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
CQB Sorbonne Université
AFMB Université Aix-Marseille
CQB Sorbonne Université
Aide de l'ANR 486 365 euros
Début et durée du projet scientifique :
décembre 2024
- 36 Mois