CE45 - Interfaces : mathématiques, sciences du numérique – biologie, santé 2024

Apprentissage profond pour la classification fonctionnelle des enzymes à activité glucidique – DEFINE

Résumé de soumission

Une myriade de séquences d'enzymes à activité sur les glucides (CAZyme) s'accumulant dans nos bases de données et provenant de différents écosystèmes n'ont pas de fonction identifiée. Leur classification fonctionnelle est le goulot d'étranglement critique pour leur compréhension, pour notre surveillance de la santé des écosystèmes, pour des avancées biotechnologiques. Nous allons concevoir une architecture d’Apprentissage Profond (AP), DEFINE, capable de classer des ensembles de séquences d'enzymes par fonction et de découvrir l'existence de nouvelles fonctions et sous-classes fonctionnelles. Nous exploiterons les énormes quantités de séquences disponibles, la dernière génération de modèles de langage protéique (pLM) et la puissance de l’apprentissage non supervisé, notre récente approche ProfileView consacrée à la classification fonctionnelle des domaines, l'expérience et la robustesse de l'annotation CAZy pour une qualité primordiale d'entraînement et de test, la possibilité de tester expérimentalement l'activité catalytique d’un certain nombre de sous-familles d'enzymes et de valider leurs déterminants fonctionnels par des structures cristallographiques. La méthode doit permettre 1.d'inférer la fonction de séquences partageant des motifs similaires par transfert d’autre séquences dèjà fonctionellement caractérisées, et 2.de découvrir l'existence de nouvelles fonctions à tester en exploitant de nouveaux motifs de séquences. La grande quantité de séquences considérées dans ce projet et leur classification permettront de créer une base de données Deep-CAZy, rassemblant des données consacrées à l'expérimentation en complément de la base CAZy. DEFINE fournira la preuve de principe pour la construction d'un modèle générique de AP applicable à grande échelle à toutes les familles de protéines. La complémentarité du consortium basé sur la classification fonctionnelle et l’AP, la biologie des CAZymes, la biochimie et la cristallographie garantira le succès du projet.

Coordination du projet

Alessandra Carbone (Sorbonne Université)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

CQB Sorbonne Université
AFMB Université Aix-Marseille
CQB Sorbonne Université

Aide de l'ANR 486 365 euros
Début et durée du projet scientifique : décembre 2024 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter