CE45 - Interfaces : mathématiques, sciences du numérique – biologie, santé 2023

Apprentissage automatique pour améliorer l'inférence en phylogénomique – DEELOGENY

Résumé de soumission

La phylogénomique consiste à analyser les génomes des êtres vivants dans un cadre évolutif, afin de reconstruire leur histoire et de comprendre leur fonctionnement.
Aujourd'hui ce domaine de recherche motive le séquençage de milliers de génomes dans tout l'arbre de la vie.
Il dépend d'une succession d'étapes d'estimation, basées sur des modèles probabilistes et coûteuses en temps de calcul.
Même en utilisant des modèles probabilistes manquant de réalisme, les méthodes actuelles ne sont pas assez efficaces pour traiter les jeux de données en préparation.
Ces méthodes introduisent d'ailleurs des erreurs, notamment car elles fournissent des estimations ponctuelles sans l'incertitude associée.
Le projet Deelogeny vise a refondre plusieurs étapes clés pour réduire la quantité d'erreurs, en intégrant implicitement sur les objets intermédiaires lorsque des paramètres d'intérêt sont inférés.
Ce travail s'appuiera sur des réseaux de neurones (NNs), par nature plus rapides que les méthodes standard.
Ces NNs seront entraînés sur des simulations issues de modèles probabilistes sophistiqués, dont nous validerons le réalisme par comparaison à des données empiriques.
Ils feront appel à des architectures récentes, telles que les réseaux d'attention (e.g., "transformer") pour prendre en compte les dépendances entre noeuds d'une phylogénie ou entre sites ou séquences d'un alignement, et les "Graph Neural Networks" afin de traiter les phylogénies.
Nos nouvelles méthodes seront validées sur des simulations, ainsi que des jeux de données génomiques de grande taille.
Les étapes que nous allons cibler sont : l'inférence de phylogénie à partir de séquences sans faire d'alignement ; l'inférence de taux de diversification ou de propagation épidémique à partir d'alignements sans inférer de phylogénie ; l'inférence d'histoires de familles de gènes sans inférer d'arbre de gènes ; l'inférence d'associations entre génotype et phénotype sans reconstruire de caractères ancestraux.

Coordination du projet

Bastien BOUSSAU (LABORATOIRE DE BIOMÉTRIE ET BIOLOGIE EVOLUTIVE)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

CIRB Centre interdisciplinaire de recherche en biologie
IP Hub de bioinformatique et biostatistique
LBBE LABORATOIRE DE BIOMÉTRIE ET BIOLOGIE EVOLUTIVE
LEHNA LABORATOIRE D'ECOLOGIE DES HYDROSYSTEMES NATURELS ANTHROPISES
IBENS Institut de biologie de l'Ecole Normale Supérieure
LCQB Laboratoire de biologie computationnelle et quantitative

Aide de l'ANR 908 954 euros
Début et durée du projet scientifique : septembre 2023 - 60 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter