DEFIS - domaines émergent 2008

Phylogénomique : Algorithmes et Représentations Intégrés pour l'ANalyse de l'Evolution du vivant – PHYL-ARIANE

Résumé de soumission

Mots-clefs : algorithmes, combinatoire des arbres, superarbres, modèles combinatoires et probabilistes, données haut-débit et multi-échelles, évolution des espèces, analyse de gènes et de génomes, visualisation de collections d'arbres. Le but de ce projet est de proposer des algorithmes pour répondre au défi informatique que posent les données haut-débit générées par les projets de séquençage de génomes. Le contexte du projet est celui de la phylogénomique, un domaine émergent consistant à inférer des connaissances sur l'évolution des gènes et l'histoire des organismes vivants depuis les séquences biologiques issues de génomes complets. L'arbre est généralement le modèle utilisé pour représenter l'histoire évolutive des espèces. Une grande partie de cet arbre, dont notamment les zones les plus anciennes, sont encore à élucider (64% selon le NCBI, dont les relations de parenté entre grands groupes bactériens) et ceci pour au moins deux raisons : - Un manque de données « complètes » : le 1er génome complet a été séquencé il y a seulement dix ans, et le soucis d'avoir une véritable représentation de la diversité du vivant dans les projets génomes est très récent , - Mais surtout un manque de méthodes capables de prendre en compte la complexité des données de façon fidèle : actuellement, on reconstruit d'abord un arbre de gène décrivant les relations de parenté entre séquences apparentées à un gène , l'arbre du vivant est ensuite estimé à partir d'un ensemble d'arbres de gènes. Cependant, les histoires de gènes et de génomes sont bien plus complexes que le simple modèle arboré et sont engendrées par un processus à plusieurs échelles : des micro-événements comme les substitutions agissent au niveau de chaque site et des macro-événements comme les duplications ou les transferts de gènes agissent au niveau d'un génome ou entre génomes. Elucider les relations des grands groupes du Vivant depuis les données haut-débit récemment obtenues nécessite une avancée méthodologique importante dans la prise en compte de la complexité des événements évolutifs affectant les gènes. C'est ce que propose de réaliser le projet Phyl-ARIANE, sur la base de modèles et d'algorithmes de nature combinatoire et/ou probabiliste, prenant à la fois en compte les micro- et les macro-événements. Une autre source d'originalité se situe dans l'élucidation conjointe des histoires évolutives des gènes et de l'arbre du vivant. Il nous semble fondamental de ne pas dissocier l'estimation de ces phénomènes responsables chacun d'une partie du signal porté par les données. Enfin, ce projet effectuera aussi un saut qualitatif dans le domaine de la représentation de collections d'arbres et de la navigation de connaissances sur les phénomènes évolutifs. Nous proposons des algorithmes d'exploration automatique de collections de gènes, mettant en lumière les points communs entre gènes, et mettant en regard les histoires de gènes et d'espèces, afin de faciliter la production de nouvelles connaissances dans les études futures. Les progrès réalisés dans ce projet sur la combinatoire des arbres, les algorithmes de réconciliation d'arbres et la représentation d'arbres bénéficieront aux nombreux domaines où ce modèle est employé : classification hiérarchique, fouille de données, analyse d'images, chimie, etc. Par ailleurs, l'application d'algorithmes de complexité paramétrique à des données de très grandes tailles contribuera à populariser cette technique relativement récente de l'informatique fondamentale. Les connaissances sur l'Evolution résultant de ce projet permettront de nombreuses avancées à court et moyen terme en sciences de la vie : inférence automatique de la fonction des gènes, détection de gènes impliqués dans l'interaction entre plusieurs organismes interdépendants pour l'agronomie, meilleure compréhension du contexte génomique lié aux transferts de gènes, et compréhension des mécanismes responsables de la transmission entre bactéries de la résistance aux antibiotiques.

Coordination du projet

Université

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

Aide de l'ANR 350 625 euros
Début et durée du projet scientifique : - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter