CE45 - Mathématique, informatique, automatique, traitement du signal pour répondre aux défis de la biologie et de la santé

Le sequençage nanopore pour une cartographie haute-performance de la réplication de l'ADN – NanoPoRep

Le séquençage nanopore pour une cartographie haute-performance de la réplication de l’ADN.

Résoudre la stochasticité de la réplication de l’ADN.<br />Chez les eucaryotes, la réplication procède par l'activation d'un grand nombre d'origines de réplication. Malgré les progrès des technologies de séquençage à haut-débit, les origines demeurent difficiles à identifier et notre connaissance demeure incomplète. En effet, parce que l’activation des origines est stochastique, chaque cycle de réplication utilise un jeu d’origines différent choisi parmi un grand nombre d’origines potentielles.

Révolutionner la caractérisation de la réplication de l'ADN sur molécules uniques.

L’activation de chaque origine établit deux fourches de réplication divergentes qui accomplissent la synthèse bidirectionnelle de l'ADN avec des vitesses variables. Les fourches peuvent ralentir et marquer des pauses à des sites spécifiques mais la distribution de la vitesse des fourches à chaque région du génome reste à déterminer. Résoudre la nature des origines et analyser la progression de la réplication nécessitent des études à haut débit sur molécules uniques parce que les méthodes populationnelles n'offrent qu'une image moyenne qui masque la variabilité et les évènements rares. Les méthodes actuelles sur molécules uniques suivent l'incorporation de nucléotides non-standards lors de la réplication. Mais elles ne fournissent aucune information de séquence à moins d'être combinées à l'utilisation de sonde ADN, ce qui est laborieux, basse résolution et bas débit. La cartographie haut débit sur molécules uniques reste à accomplir. Ce défi peut être atteint en suivant l'incorporation des nucléotides non-standards par séquençage nanopore. Le séquençage permet la localisation précise des molécules sur le génome de référence et promet un débit important. Le séquençage nanopore est une technologie émergente où le courant ionique au travers d'un nanopore biologique est enregistré pendant le transit d'un ADN simple brin traversant le pore. La séquence nucléotidique de la molécule est ensuite déduite des variations de courant par une analyse du signal dédiée. Nous avons conduit une étude pilote qui démontre que les nanopores actuels sont suffisamment sensibles pour mener à bien le projet. Les défis scientifiques à relever sont donc de mettre au point une analyse du courant dans le nanopore permettant de discriminer au moins un des nucléotides non-standards compatibles avec l'étude de la réplication, en plus des quatre nucléotides canoniques, puis de l’appliquer à la cartographie de l’orientation et de la vitesse des fourches de réplication chez l’homme et la levure.

Nous utilisons comme nucléotide non-standard la bromodeoxyuridine (BrdU), un analogue de la thymidine (T) compatible avec l’étude de la réplication, et le système MinION de séquençage nanopore de Oxford Nanopore Technologies (ONT).
Des molécules d’ADN simples brins ou` tous les sites T sont substitués par du BrdU, sont fabriquées in vitro par extension d’amorce. Le courant nanopore est significativement différent a` un nombre important (mais pas tous) les sites substitués par BrdU en comparaison du control non-substitue´. La BrdU modifie donc de façon mesurable le courant nanopore.
Une souche de levure génétiquement modifiée afin que sa croissance dépende totalement de la disponibilité en thymidine exogène est mise en culture dans des milieux contenant BrdU et/ou T en quantité variable. L’analyse par spectrométrie de masse montre que l’on constitue ainsi des échantillons d’ADN de levure ou` la thymidine est substituée par la BrdU en proportion variable (0%, 9%, 38%, 69% et 91%). Leur analyse avec le MinION montre que les changements de courant nanopore induit par la BrdU sont aussi détectables sur de l’ADN génomique marque´.
Ces échantillons constituent une base pour apprentissage automatique permettant la mise au point du logiciel RepNano implémentant deux méthodes d’estimation de la proportion locale d’incorporation de BrdU a` partir de la série des sauts de courant d’une base a` l’autre. La première méthode (CNN) utilise un réseau de neurones convolutifs a` trois couches de convolution qui prédit la proportion de BrdU par fenêtre de 96 sauts. La seconde (TM) utilise les distributions de sauts de courant dans les échantillons d’apprentissages lorsqu’un site T est ou n’est pas substitue´ par BrdU pour estimer les probabilités associées aux états BrdU et T d’un saut observe´, dont on déduit que la proportion de sites T informatifs est de ~20%. L’estimation de l’incorporation de BrdU par les deux méthodes est en bon accord avec les mesures de spectroscopie de masse.

RepNano re´pond a` l’objectif computationnel principal du projet, il permet d’estimer, à partir des signaux de courant nanopore, la proportion d’incorporation de BrdU, un nucléotide non-standard compatible avec l'étude de la réplication. Les signaux d’incorporation de BrdU obtenu par RepNano dans des expe´riences de pulse-chase de BrdU chez la levure pre´sentent des motifs asyme´triques bien localise´s avec une monte´e rapide to 0 a` 60-80% d’incorporation de BrdU et une redescente plus lente jusque ~10% d’incorporation, dont il re´sulte que le temps d’incorporation et de me´tabolisation des nucle´osides exoge`nes n’est pas ne´gligeable par rapport a` la dure´e des impulsions de BrdU (4 min). Ainsi, nous avons de´veloppe´ un outil de traitement du signal qui permet la de´tection et l’orientation de fourches de re´plication individuelles a` partir des profils RepNano avec une pre´cision spatiale ine´gale´e de ~200 nucle´otides. L’ensemble de la proce´dure nomme´e FORK-seq nous a permis chez la levure (i) de rapporter la position de 60545 fourches de re´plication oriente´es qui sont en tre`s bonne cohe´rence avec les profils populationnels de directionnalite´ des fourches, mais surtout (ii) de cartographier 4964 e´ve´nements d’initiation de la re´plication et 4485 terminaisons. Cette dernie`re re´alisation permet une avance´e significative sur la compre´hension du programme de re´plication chez la levure. Elle met en évidence un nouveau type d’événements d’initiation de la réplication, dispersé sur tout le génome à distance des origines précédemment décrites et qui compte pour ~9% de l’ensemble des initiations. De même, ces données pointent sur une dispersion inattendue de la terminaison, avec 18% des événements de terminaison de la réplication localisés dans des régions où les méthodes populationnelles n’ont pu que détecter la prédominance d’événements d’initiation, illustrant la pertinence de notre approche génomique en molécules uniques.

La dépendance temporelle asymétrique de l’incorporation de BrdU a permis de mettre au point par un biais inattendu une méthodologie d’orientation des fourches déjà appliquée chez la levure. Nous développons actuellement un modèle de la dynamique du rapport de contenu intra-cellulaire en T et BrdU qui permet de prédire l’asymétrie de forme des profils d’incorporation de BrdU et de déduire la vitesse de chaque fourche par ajustement du modèle. Ainsi, les données déjà accumulées (~5 fourches par kb) vont fournir une première cartographie de la vitesse des fourches individuelles chez la levure qui sera densifiée par de nouvelles expériences afin d’obtenir la distribution locale de vitesse à haute résolution. FORK-seq est directement applicable chez l’homme (le marquage de la réplication par BrdU est la technique de choix pour les expériences de peignage moléculaire chez cet organisme) mais, comme attendu, il nous faut relever le challenge du débit. Pour compenser pour un génome 250 fois plus grand que celui de la levure nous expérimentons la sélection de régions en amont du séquençage nanopore. La longueur d’ADN répliquée par une fourche étant ~5 fois plus longue chez l’homme que la levure nous mettons au point une stratégie de marquage par succession de plusieurs pulse-chase de BrdU, ce qui nous permettra de questionner la constance de la vitesse d’une fourche au cours du temps
Le projet poursuit aussi des objectifs computationnels ayant pour but de s’affranchir (i) de la dépendance dans les logiciels propriétaire de ONT, ce qui est le cas actuellement, et pourrait remettre en cause l’utilité de RepNano quand la technologie ONT changera, et (ii) du besoin de constitution de données d’apprentissage qui peut être particulièrement complexe dans certain cas, ce qui limite la possibilité de reproduire notre démarche pour d’autres applications.

Le consortium a mis à la disposition de la communauté RepNano sous la forme d’un logiciel libre et open source (Licence MIT). Ceci permet à d’autres équipes d’effectuer des analyses en molécule unique utilisant le marquage BrdU que ce soit pour l’analyse de la réplication ou d’autres applications.
github.com/organic-chemistry/RepNano

1 article dans une revue internationale à comité de lecture :
Hennion M, Arbona JM, Lacroix L, Cruaud C, Theulot C, Le Tallec B, Proux F, Wu X, Novikova E, Engelen S, Lemainque A, Audit B, Hyrien O (2020) FORK-seq: replication landscape of the Saccharomyces cerevisiae genome by nanopore sequencing. Genome Biology 21, 125. hal-02979039

2 présentations orales dont une invitée :
- Présentation orale invitée de M. Hennion. Mapping DNA replication using nanopore sequencing. (London Calling 2019, London, UK, 22-24 May 2019).
- Présentation orale de O. Hyrien. Quantitative, single-molecule analysis of replication initiation and fork progression using nanopore sequencing (Cold Spring Harbor Meeting on “Eukaryotic DNA Replication and Genome Maintenance”, Cold Spring Harbor, USA, 3–7 September 2019).

5 présentations de posters par :
- M. Hennion. Mapping DNA replication using nanopore sequencing (Q-Life meeting, Paris, 11 April 2019; GDR 2019 “Stress réplicatif & cancer”, 9-10 May 2019, Banyuls-sur-mer, France).
- B. Audit. Emergence of the spatio-temporal replication program - Role of origin distribution heterogeneity (Cold Spring Harbor Meeting on “Eukaryotic DNA Replication and Genome Maintenance”, Cold Spring Harbor, USA, 3–7 September 2019).
- H. Kabalane. Quantifying the co-regulation strength between DNA replication and gene transcription (idem).
- B. Theulot. Use of Nanopore sequencing to map genome replication at the single-molecule level (idem).

Le projet propose de développer une méthode révolutionnaire pour caractériser la réplication de l'ADN sur molécules uniques. Chez les eucaryotes celle-ci procède par l'activation d'un grand nombre d'origines de réplication qui chacune établit deux fourches de réplication divergentes qui accomplissent la synthèse bidirectionnelle de l'ADN avec des vitesses variables. Malgré les progrès des technologies de séquençage à haut-débit, les origines demeurent difficiles à identifier et notre connaissance est incomplète. Résoudre la nature des origines et analyser la progression de la réplication nécessitent des études à haut débit sur molécules uniques parce que les méthodes populationnelles n'offrent qu'une image moyenne qui masque la variabilité et les évènements rares. Les méthodes actuelles sur molécules uniques suivent l'incorporation de nucléotides non-standards lors de la réplication. Mais elles ne fournissent aucune information de séquence à moins d'être combinées à l'utilisation de sonde ADN, ce qui est laborieux, basse résolution et bas débit. La cartographie haut débit sur molécules uniques reste à accomplir. Ce défit peut être atteint en suivant l'incorporation des nucléotides non-standards par séquençage nanopore. Le séquençage permet la localisation précise des molécules sur le génome de référence et promet un débit important. Le séquençage nanopore est une technologie émergente où le courant ionique au travers d'un nanopore biologique est enregistré pendant le transit d'un ADN simple brin traversant le pore. La séquence nucléotidique de la molécule est ensuite déduite des variations de courant par une analyse du signal dédiée. Nous avons conduit une étude pilote qui démontre que les nanopores actuels sont suffisamment sensibles pour mener à bien le projet. Le défit scientifique à relever est donc de mettre au point une analyse du courant dans le nanopore permettant de discriminer au moins un des nucléotides non-standards compatibles avec l'étude de la réplication, en plus des quatre nucléotides canoniques.

Nous développerons un logiciel libre de traitement des courants nanopores en parallèle avec des validations expérimentales et des applications. Nous utiliserons des réseaux de neurones qui sont actuellement l'outils le plus performant du domaine. Le premier objectif est de détecter les traces réplicatives résultantes d'une courte impulsion (1-2 minutes) de bromo-desoxyuridine (BrdU), un analogue de la thymidine, et ainsi mesurer l'initiation et la progression de la réplication avec une plus grande précision et un plus haut débit que l'état de l'art mais aussi d'immédiatement localiser les régions du génome où les événements de réplication ont eu lieu. Le second objectif est de rendre la technologie également sensible à l'orientation de la progression de la réplication. Pour cela nous utiliserons deux impulsions consécutives de BrdU à des concentrations différentes et nous développerons un outil d'analyse qui peut les séparer. L'ordre spatial des impulsions forte et faible fournira le sens de progression de la réplication pour cette paire de traces. Nous déterminerons les distributions de vitesse et d'orientation des fourches de réplication chez la levure et l'homme à haute résolution et nous caractériserons la stochasticité de la réplication. Nous questionnerons les relations entre la progression de la réplication et l'organisation de la chromatine et nous établirons la cartographie des barrières, éventuellement asymétriques, à la réplication. Nous fournirons comme produit final à la fois un logiciel d'analyse des courants nanopores pour la réplication mais aussi une librairie de programmation permettant l'adaptation à d'autres contextes expérimentaux (autre nucléotide non standard ou nanopore). NanoPoRep favorisera ainsi l'émergence du séquençage nanopore comme une technologie de rupture en biologie moléculaire et comme outil diagnostic et contribuera à répondre aux défis de la biologie et de la santé.

Coordination du projet

Benjamin AUDIT (LABORATOIRE DE PHYSIQUE DE L'ENS DE LYON)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LPENSL - CNRS LABORATOIRE DE PHYSIQUE DE L'ENS DE LYON
IBENS Institut de biologie de l'Ecole Normale Supérieure

Aide de l'ANR 509 327 euros
Début et durée du projet scientifique : February 2019 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter