CE45 - Interfaces : mathématiques, sciences du numérique – biologie, santé 2023

Analyse en pleine longueur et en profondeur des ARNs – Find-RNA

Résumé de soumission

L'ARN est une molécule fondamentale du vivant, convoyeur de messages pour la production et la régulation des protéines. Son étude révèle les fonctions cellulaires, ainsi que des questions fondamentales sur les acides nucléiques, leurs propriétés et leur évolution. Grâce au séquençage, l'ARN est accessible sous forme de séquences numériques appelées "lectures" et étudiées à l'aide notamment d'algorithmes de texte et de graphes. Les technologies de lectures courtes permettent d'obtenir de petits extraits d'ARN. Un jeu de données de lectures courtes peut montrer en profondeur tous les types d'ARN trouvés à un moment donné dans un tissu ou un environnement, et il permet d'accéder à des ARN rares. Cependant, ces technologies peuvent produire des quantités de données extrêmement importantes, difficilement conciliables avec nos moyens d'analyses. Les nouvelles technologies de lectures longues proposent des moyens différents d'accéder à l'ARN, en couvrant une plus grande partie des molécules, cela au prix d'un bruit plus important. Plus récentes, elles bénéficient de moins de développements méthodologiques.

Nous ne connaissons pas le matériel génétique de la majorité des espèces sur Terre. Or la plupart des solutions informatiques fonctionnent avec des connaissances préalables, et sont donc bien adaptées pour des espèces comme l'Homme ou la souris. Ce n'est pas le cas pour les espèces ou groupes d'espèces et les symbioses qui ne peuvent pas être cultivées par exemple. L'objectif principal de Find-RNA est de fournir de nouvelles solutions pour permettre l'analyse de l'ARN de ces organismes sans références. Notre objectif principal est de développer des méthodes efficaces et passant à l’échelle pour créer des catalogues de lectures qui vont permettre l'identification des ARN. Nous voulons promouvoir l'adoption du séquençage à lecture longue pour les ARN en les combinant à des lectures courtes dans le développement de ces catalogues. Cela implique le développement de méthodes permettant de réduire le stockage des ensembles de données, l’amélioration des lectures longues, ainsi que de nouvelles possibilités d’interrogations de ces catalogues.

Find-RNA se compose de trois volets scientifiques et d'une section de gestion et de management. Dans un premier volet, l'objectif est de créer et de tester des méthodes permettant de stocker et d'organiser des ensembles de sous-séquences importantes dans l'étude de l'ARN avec lectures courtes. L'objectif est de faire en sorte que ces ensembles utilisent le moins d'espace possible tout en restant efficaces, notamment en utilisant une structure de données nouvelle et inexplorée. Le deuxième volet se concentre sur la création de méthodes capables de mettre à jour et de rechercher rapidement dans de vastes catalogues de jeux de données d'ARN. L'objectif est de créer une structure de données "dictionnaire" spécialisée pour l'ARN, qui permet d'ajouter facilement de nouvelles séquences. Cette structure est le principal jalon du projet. Le troisième volet s'appuie sur les parties précédentes, et travaille sur l'amélioration des longues lectures en éliminant le bruit. L'objectif est ensuite de créer une structure de "dictionnaire" qui peut traiter à la fois les séquences courtes et longues, ce qui est également une contribution majeure. Enfin, les programmes seront testés sur un cas d'application réel : l'étude de la symbiose du plancton. Outre les publications scientifiques en accès libre, le projet fournira plusieurs logiciels aux bioinformaticiens et aux biologistes qui étudient les organismes via leur ARN séquencé. Il ouvrira l'accès à des instances peu étudiées, notamment en écologie ou en biologie de la conservation. En explorant des structures de données provenant de domaines éloignés, il jettera également des ponts entre domaines de l'informatique. Enfin, il intégrera de manière originale les longues lectures, afin de prendre le train en marche des opportunités offertes par cette technologie.

Marchet CAMILLE (UMR 9189 - CRISTAL - Centre de Recherche en Informatique, Signal et Automatique de Lille)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

CRIStAL UMR 9189 - CRISTAL - Centre de Recherche en Informatique, Signal et Automatique de Lille

Aide de l'ANR 194 221 euros
Début et durée du projet scientifique : décembre 2023 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.