BLANC - Blanc

– FLASH

Résumé de soumission

Aujourd'hui, nous disposons de 500 génomes complets, dont 80% sont bactériens, et 2400 génomes sont en cours de séquençage. Cette explosion suscite le développement rapide de la génomique comparative, en particulier pour les bactéries. Des études biologiques cherchant à identifier les régions spécifiques de souches d'une même espèce sont nombreuses car elles permettent d'aborder des questions d'importance, comme la distinction entre souches pathogène et non pathogène, ou l'acquisition de résistance. Ces recherches reposent sur des approches bioinformatiques et plus particulièrement sur la comparaison de génomes. Les solutions algorithmiques existantes au problème de comparaison prennent insuffisamment en compte les spécificités essentielles à l'interprétation biologique que sont l'existence des réarrangements génomiques, la précision de la comparaison et sa significativité statistique. Cocogen est un projet interdisciplinaire qui réunit algortithmiciens, statisticiens, bioinformaticiens et microbiologistes pour proposer des solutions innovantes en génomique comparative. Le but est de développer de nouveaux algorithmes et méthodes statistiques, puis de les appliquer à la compréhension des mécanismes qui régissent la variabilité génomique au sein d'une espèce bactérienne. Nous utiliserons ces méthodes pour détecter de manière systématique et précise les régions conservées et variables des génomes à l'échelle intra-espèce. Cette information sera mise à la disposition de la communauté scientifique à travers la base de données MOSAIC, déjà développée par les membres du projet (http://genome.jouy.inra.fr/mosaic). Ces annotations serviront de base à une étude approfondie des mécanismes d'acquisition de la variabilité intra-espèce chez les bactéries. L'originalité du projet CoCoGen est * d'aborder la génomique comparative des génomes proches, et plus particulièrement les comparaisons intra-espèces * de proposer une recherche fondamentale en algorithmique et statistique pour exhiber des solutions innovantes à ce problème de comparaison * d'associer fortement les mathématiciens et informaticiens qui produisent des méthodes et les biologistes qui évaluent leurs résultats sur les génomes bactériens. Le projet est organisé en 4 parties fortement interconnectées. * Algorithmique. D'abord, réaliser de nouveaux filtres pour identifier des régions similaires communes à deux génomes. Ces filtres basés sur des graines dites espacées permettront une amélioration tant dans l'efficacité du calcul que dans la précision de l'alignement. Ensuite, concevoir des filtres négatifs pour localiser les régions d'un génome similaires à aucune autre, pour accélérer la recherche de régions spécifiques à une souche. Enfin, pour mieux rendre compte des événements de réarrangements génomiques, proposer une notion de comparaison basée sur la compression relative de séquences dans laquelle l'ordre des segments peut être remanié (contrairement à l'alignement). * Statistique. Estimer la taille optimale des graines qui servent d'ancres aux algorithmes d'alignement et développer une méthode à base de simulation pour affecter un score aux régions variables et conservées. Une telle méthode nécessite des algorithmes rapides (Partie I). Ensuite, nous exhiberons des scores pour évaluer globalement la qualité d'un alignement et nous étudierons théoriquement leur significativité statistique. * Bioinformatique. Réaliser des comparaisons systématiques des génomes bactériens à l'échelle intra-espèce, pour enrichir la base MOSAIC, dont l'interface sera améliorée. Pour cela, exploiter les algorithmes développés, évaluer les alignements à l'aide des méthodes statistiques (parties I, II), et les comparer aux méthodes actuelles ainsi qu'aux alignements de référence. * Biologique : analyser systématiquement les régions variables et conservées chez les bactéries. Proposer une typologie de ces régions, la combiner avec l'information phylogénétique pour inférer des mécanismes responsables de leur apparition. Les hypothèses formulées seront testées expérimentalement chez E. coli, S. aureus et B. subtilis. Plus précisément nous utiliserons un système de recombinaison in vivo pour tester des signaux pouvant potentiellement stimuler la recombinaison. Les résultats attendus du projet Cocogen sont : des algorithmes rapides pour la comparaison de génomes et l'évaluation de leur significativité, une ressource Internet contenant les régions conservées et variables chez les bactéries, et une description des mécanismes de la variabilité pour 3 espèces. Au delà du cadre bactérien, les concepts développés seront aussi utiles à l'analyse des génomes eucaryotes et métagénomes. Par rapport au projet soumis en 2006, l'équipe du coordinateur a été renforcée, la demande financière fortement diminuée et les objectifs biologiques précisés. Le projet contient plusieurs challenges, mais l'implication forte des équipes avec un soutien de l'ANR le rendrait réalisable en 3 ans.

Coordination du projet

Emmanuelle SCHULZ (Université)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Aide de l'ANR 290 000 euros
Début et durée du projet scientifique : - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter