CE45 - Interfaces: mathématiques, sciences du numérique –biologie, santé

L'apprentissage statistique pour dechiffrer les systèmes de sécretion – SECRET

Résumé de soumission

L'annotation fonctionnelle des protéines est souvent réalisée par des approches phylogénomiques ou d'apprentissage statistique. Les approches phylogénomiques reposent sur l’utilisation de la similarité des séquences et du contexte génomique des protéines impliquées dans la fonction d’intérêt. Particulièrement puissantes pour annoter des machineries cellulaires, ces méthodes nécessitent beaucoup de travail manuel et se limitent à annoter des protéines avec des homologues connus. Les approches d'apprentissage automatique reposent sur l'extraction de descripteurs à partir de la séquence protéique (par ex. structure secondaire), et s'affranchissent donc du problème de la similarité à des homologues connus. Cependant, le problème d'annotation est formulé comme une tâche d'apprentissage "une protéine - une fonction" avec des annotations très générales. Il y a donc un décalage entre les approches d'apprentissage statistique et phylogénomiques, qui exploitent l'organisation génomique.

L'objectif de ce projet est ainsi de développer de nouvelles méthodes d'apprentissage statistique pour prédire la fonction des protéines dans les génomes procaryotes. Pour ceci, nous travaillerons sur le problème de l'identification de nouveaux systèmes de sécrétion, système idéal d'étude quant à sa diversité en termes de taille (1 à 15 protéines), d'homologues impliqués, de contexte génomique et d’importance physiologique et écologique. Plus concrètement, nos objectifs sont : (1) identifier des signatures de protéines de système de sécrétion au-delà de la similarité de séquence; (2) développer des méthodes de déconvolution semi-supervisée et pénalisée pour détecter des systèmes de sécrétion, connus comme inconnus, dans chaque organisme; (3) automatiser les tâches pour les résoudre sans intervention humaine (autoML). Ce projet interdisciplinaire développera donc des méthodes d'apprentissage statistique dédiées à la découverte des nouveaux systèmes de sécrétion chez les procaryotes.

Coordination du projet

Nelle Varoquaux (TIMC)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

TIMC-IMAG TIMC

Aide de l'ANR 214 248 euros
Début et durée du projet scientifique : mars 2023 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter