CE45 - Mathématiques et sciences du numérique pour la biologie et la santé

Moteur de recherche de donne´es de se´quenc¸age en ge´nomique environnementale – SeqDigger

Moteur de recherche de données de séquençage génomiques

Nouvelle percée en matière de mise à l'échelle, permettant aux utilisateurs d'interroger directement de grandes données de séquençage brutes non assemblées à la volée afin d'exploiter la plus grande ressource sous-exploitée des sciences de la vie.

Fournir un moteur de recherche ultra rapide et convivial pour l'interrogation des données génomiques

L'objectif central de cette proposition est de fournir un moteur de recherche ultra rapide et convivial qui compare une séquence d'interrogation, typiquement une lecture ou un gène (ou un petit ensemble de telles séquences), à l'ensemble exhaustif de toutes les données disponibles correspondant à un ou plusieurs projets de séquençage (méta)génomique à grande échelle, tels que le métagénome de la ville de New York, les projets de microbiome humain (HMP ou MetaHIT), le projet Tara Oceans, Airborne Environment, etc. Ce serait la toute première fois qu'un outil aussi complet serait mis en place, et il profiterait grandement à la communauté scientifique, de la génomique environnementale à la biomédecine.

Nous proposerons des structures de données de base pour indexer les k-mer à partir de nombreux ensembles de lecture capables d'attribuer un k-mer aux ensembles de lecture dans lesquels il apparaît (P1), et de fournir l'abondance d'un k-mer dans chaque ensemble de lecture (P2). La solution pratique sera différente pour les deux problèmes. Les structures de données doivent avoir un délai de consultation minimal, une empreinte mémoire minimale, et doivent pouvoir être mises à jour : accepter l'ajout de nouveaux ensembles de lecture ou la suppression d'ensembles de lecture (métadonnées périmées ou incorrectes).Nous séparerons le travail en deux sous-tâches distinctes. La première tâche se concentrera sur la proposition de structures de données centrales et la seconde sera consacrée à leur plasticité. Bien que ces deux tâches soient profondément imbriquées, nous préférons les aborder dans des sous-tâches distinctes - la dynamique des structures de données «centrales« (fonctions de hachage parfaites minimales, filtres de Bloom, filtre de quotient de comptage, approches BWT) est une question fondamentale qui doit être abordée séparément des solutions pratiques.
Pendant le projet, tous les déploiements de SeqDigger seront effectués par les membres du projet. Tous les outils mis en œuvre seront mis en open-source et disponibles sur Github. Le logiciel sera développé de telle sorte qu'il puisse être facilement exploité par d'autres laboratoires. Nous fournirons des outils autonomes packagés, mais le support d'un trop grand nombre de plates-formes/architectures représenterait une charge d'ingénierie inutile pour le projet. Nous nous limiterons donc à nous assurer que notre logiciel fonctionne correctement sur les versions récentes de Linux et OSX.

À ce jour (juillet 2021), deux solutions algorithmiques et leurs mises en œuvre ont été proposées.
- kmtricks : github.com/tlemane/kmtricks (prépublication www.biorxiv.org/content/10.1101/2021.02.16.429304v1). Propose une nouvelle méthode efficace pour générer un ensemble de structures de données (filtres bloom) utilisées en aval pour indexer un grand nombre d'énormes ensembles de données (jusqu'à des dizaines de téraoctets jusqu'à présent).
- findere : github.com/lrobidou/findere (SPIRE 2021, prépublication www.biorxiv.org/content/10.1101/2021.05.31.446182v1). Il s'agit d'une stratégie simple et de sa mise en œuvre pour réduire le taux de faux positifs de toute structure de données AMQ (approximate membership query) indexant des k-mers (mots de longueur k). La méthode permet d'accélérer les requêtes d'un facteur deux et de diminuer le taux de faux positifs de deux ordres de grandeur. Cette réalisation est faite à la volée au moment de la requête, sans modifier la structure de données d'indexation originale, sans générer d'appels faux-négatifs et sans surcharge mémoire. Sans aucun inconvénient, cette méthode, aussi simple qu'efficace, réduit soit le taux de faux positifs, soit l'espace nécessaire pour représenter un ensemble donné à un taux de faux positifs défini par l'utilisateur.

Passage à l'échelle pour l'indexation de PB de données brutes de séquençage.

findere : github.com/lrobidou/findere (SPIRE 2021, prépublication www.biorxiv.org/content/10.1101/2021.05.31.446182v1)

kmtricks : github.com/tlemane/kmtricks (prépublication www.biorxiv.org/content/10.1101/2021.02.16.429304v1)

Séparation automatique des souches dans les métagénomes de faible complexité à l'aide de lectures longues
www.biorxiv.org/content/10.1101/2021.02.24.429166v2.abstract

Nous assistons actuellement à une profonde révolution des connaissances en raison de la disponibilité de bases de données de séquences en expansion exponentielle rendue possible par l'accélération continue du débit des techniques de séquençage. Cette tendance est mise en évidence, par exemple, dans le projet "Earth Bio-Genome Project" qui a été présenté lors du Forum économique mondial Davos 2018 - ce projet vise à "utiliser la génomique pour aider à découvrir les 80 à 90 % d'espèces qui restent actuellement cachées à la science".

Les données de séquençage s'accumulent plus rapidement que la loi de Moore, apportant de nouvelles connaissances biologiques fondamentales, de nouvelles conjectures et une meilleure compréhension, avec des impacts sur la médecine, l'agronomie et l'écologie. Les principaux objectifs ont été d'assembler de nouveaux génomes afin de comparer des organismes spécifiques à des espèces de référence représentatives, en mettant en évidence les variations génomiques qui révèlent des propriétés génétiques en corrélation avec des marqueurs écologiques, agronomiques ou cliniques. Aujourd'hui, l'"International Nucleotide Sequence Database Collaboration" (INSDC) "Sequence Read Archive" (SRA) stocke plus de 10000 Peta nucléotides sous forme de courtes séquences (<1000 bp), qui représentent des fragments génomiques généralement inconnus (des "lectures" échantillonnées au hasard dans des projets de séquençage).

Toutefois, l'écrasante majorité de ces séquences n'ont été analysées que dans le cadre d'un projet unique, chacune ne portant que sur une petite fraction de la ressource totale. Il est donc primordial de maintenir un modèle de diversité pour les méta-analyses à l'avenir et de développer des technologies permettant d'interroger les données au-delà des frontières de chaque projet. L'accès à des ensembles de données "sans-frontière" plutôt qu'à un nombre unique ou limité d'ensembles de données offrirait aux chercheurs des possibilités inégalées pour faire de nouvelles découvertes.

Malheureusement, les séquences brutes stockées dans des banques de données génomiques telles que SRA ne sont pas indexées et ne peuvent donc pas être interrogées efficacement. Souvent, ces ensembles de données ne sont jamais revisités en raison de l'énorme surcharge que représente la manipulation de données aussi volumineuses. Aujourd'hui, il serait impensable d'accéder à Internet sans des moteurs de recherche puissants. Cependant, c'est précisément la situation actuelle pour les archives de données génomiques brutes, où des données précieuses dorment dans des tiroirs rarement ouverts.

L'objectif central de notre projet est de fournir un moteur de recherche ultra rapide et convivial permettant de requêter une séquence, typiquement une lecture ou un gène (ou un petit ensemble de telles séquences), avec l'ensemble exhaustif de toutes les données disponibles correspondant à un ou plusieurs projets de séquençage métagénomique à grande échelle, tels que le métagénome de New York, le projet de microbiome humain (HMP ou MetaHIT), le projet Tara Oceans, Airborne Environnement, etc. Ce serait la toute première fois qu'un outil aussi complet serait mis au point, et la communauté scientifique en bénéficierait grandement, de la génomique environnementale à la biomédecine.

Coordination du projet

Pierre Peterlongo (Centre de Recherche Inria Rennes - Bretagne Atlantique)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

IP INSTITUT PASTEUR
AMU-MIO UNIVERSITE d'AIX-MARSEILLE-Institut Méditerranéen d’Océanologie
UMR 8030 / CEA UMR 8030 / GENOSCOPE / CEA
Inria Rennes - Bretagne Atlantique Centre de Recherche Inria Rennes - Bretagne Atlantique

Aide de l'ANR 544 306 euros
Début et durée du projet scientifique : décembre 2019 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter