CE45 - Interfaces: mathématiques, sciences du numérique –biologie, santé

Fouille non biaisée dans les banques de données RNA-seq massives – full-RNA

Résumé de soumission

Le séquençage d'ARN à haut débit (RNA-seq) est un outil unique pour la découverte de biomarqueurs médicaux et de cibles pharmaceutiques. Cependant, alors que près d'un million de banques RNA-seq humaines sont publiquement disponibles, ce trésor d'information médicale ne peut réaliser son plein potentiel car il est impossible d'interroger directement cette ressource pour mesurer l'expression d'un ARN d'intérêt. Pusieurs projets bioinformatiques ont abordé cette question, mais ils reposent sur des ARN de référence normaux qui ne capturent pas toute la diversité des transcrits pathologiques. De nouvelles structures de données sans référence utilisant des k-mers permettent d'interroger de grandes bases de séquneces, mais elles n'autorisent pas les requêtes quantitatives.
Notre objectif ici est de développer de nouvelles structures d'indexation capables de gérer des requêtes quantitatives sans référence dans des dizaines de milliers de banques RNA-seq tout en optimisant la consommation disque et mémoire. A cette fin, nous nous appuierons sur notre système d'indexation Reindeer. Nous apporterons des innovations importante permettant de réduire l'empreinte disque et mémoire de l'outil, et nous l'étendrons aux séquences de type "long-read". De plus, nous implémenterons dans la nouvelle version de Reindeer des outils statistiques permettant de cribler les index pour y découvrir des ARN significativement associés à des caractères qualitatifs ou quantitatifs liés au phénotype des échantillons. Ceci nous permettra de découvrir des ARN associés à des caractéristiques cliniques ou cellulaires, et in fine produire de nouveaux modèles de diagnostic/pronostic. Nous créerons deux premiers index d'environ 10.000 échantillons à partir des bases de données "Short Read Archive" et GTEX. A l'aide de ces index, nous proposons une série d'applications visant à mieux comprendre les déterminants du vieillissement et de la senescence cellulaire, deux processus liés et impliqués dans un grand nombre de pathologies. Nous générerons les premièrs modèles modèles prédictifs de vieillissement et senescence utilisant des ARN non répertoriés tels que les rétrotransposons, les lncRNA et les variants d'épissage. L'architecture distribuée de notre système, combinée à des serveurs web permettant des interrogations publiques permettra une large communauté d'évaluer d'évaluer nos outils, ouvrant la voie à une large gamme d'applications. Notre consortium est composé de bioinformaticiens de quatre institutions, dotés d'une solide expérience en informatique, structure de données de texte, analyse de séquences ARN à haut débit et transcriptomique en santé.

Coordination du projet

Daniel GAUTHERET (Centre national de la recherche scientifique)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

IP INSTITUT PASTEUR
IRMB Institut de Médecine Régnératrice & Biothérapies-Université de Montpellier
Université de Lille (EPE)
I2BC Centre national de la recherche scientifique

Aide de l'ANR 599 698 euros
Début et durée du projet scientifique : septembre 2022 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter