CE45 - Interfaces : mathématiques, sciences du numérique – biologie, santé 2025

Manipuler et comprendre la fonction dans les séquences biologiques par l'apprentissage de représentations – MANUFACTURE

Résumé de soumission

Les séquences biologiques (ADN, ARN, protéines) sont des chaînes d'acides aminés ou de nucléotides. Un principe clé en biologie est que la séquence détermine la fonction d'une molécule dans l'organisme. Cependant, cette relation est complexe et dépend du contexte. Comprendre comment des fonctions diverses sont encodées dans ces séquences est une question fondamentale en biologie. La conception de séquences peut être vue comme un problème inverse : étant donné une fonction phénotypique souhaitée, quelles séquences peuvent l'accomplir ? En raison de la complexité de la relation entre séquence et fonction, concevoir des séquences biologiques pour des fonctions spécifiques est un défi, avec de nombreuses applications en santé, industrie, et au-delà.

Au cours de l'évolution, la variation des séquences est limitée par la conservation des fonctions. Aujourd'hui, des ensembles de données massifs peuvent être collectés via des expériences à haut débit, riches en signaux évolutifs qui peuvent éclairer la correspondence séquence-fonction. Des modèles d'apprentissage automatique appris sur ces données peuvent prédire les fonctions et générer de nouvelles séquences.

Dans ce projet, nous allons développer des modèles génératifs qui encodent des séquences dans des espaces de représentation fonctionnellement interprétables. En appliquant des contraintes appropriées lors de l'apprentissage, nous nous assurerons que les propriétés fonctionnelles d'intérêt correspondent à des coordonnées démêlées de l'espace de représentation. Ces coordonnées pourront ensuite être manipulées indépendamment pour concevoir des séquences dotées de propriétés spécifiques.

Pour cela, nous développerons des méthodes d'apprentissage automatique nouvelles, étudierons les limites fondamentales de l'apprentissage de la représentation en utilisant des approches de physique statistique appliquées aux réseaux neuronaux, et travaillerons avec des collaborateurs expérimentaux pour valider les séquences conçues.

Coordination du projet

Jorge FERNANDEZ DE COSSIO DIAZ (Institut de physique théorique)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

IPhT Institut de physique théorique

Aide de l'ANR 389 032 euros
Début et durée du projet scientifique : février 2026 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter