CE12 - Génétique, génomique et ARN 2019

Origines de réplication humaines : réconcilier des visions disparates – HUDROR

La carte de réplication du génome humain

La duplication du matériel génétique démarre en de nombreux points dont la caractérisation est controversée. Nous avons développée une méthodologie qui permet de visualiser la la réplication d'un très grand nombre de molécules individuelles d'ADN et de résoudre ces controverses. Cette méthodologie permettra de mesurer précisément l'impact du cancer et d'autres pathologies et de leurrs traitements sur la réplication du matériel génétique.

Origines de réplication humaines : résoudre les controverses

Le but du projet était de réconcilier les résultats apparemment divergents obtenus par différentes méthodes génomiques de cartographie de la réplication, d'établir une carte précise des évènements d'initiation à l'échelle de la molécule unique, et de déchiffrer les déterminants génétiques et épigénétiques du programme de réplication de cellules humaines en culture. L'hypothèse fondée sur nos travaux antérieurs était que la réplication du génome humain démarre au sein de zones circonscrites de chromatine ouverte, dites origines "maîtresses" (MaOris), et se poursuit par l'activation d'origines moins efficaces, dites origines secondaires, dispersées à travers la quasi-totalité du génome. Nous avions par séquençage de fragments d'Okazaki (OK-seq) réalisé des profils de direction moyenne des fourches de réplication (RFD) dans plusieurs types cellulaires et identifié 5 000 - 10 000 MaOris, dont la moitié était partagée par tous les types cellulaires, et le reste spécifique de certains types cellulaires. Ces 5 000 MaOris ne pouvant rendre compte que d'une fraction du nombre total (n = 30 000) d'évènements d'initiation supposés prendre place à chaque cycle cellulaire, nous avons suggéré que la majorité des évènements était masquée dans les profils populationnels en raison d'une grande dispersivité. Par ailleurs, pour expliquer le fait que le séquençage de néobrins courts (SNS-seq) suggérait une distribution des origines peu cohérente avec l'OK-seq, nous avions postulé que l'élongation de certains SNS pourrait être bloquée, ce qui augmenterait leur abondance, mais limiterait la contribution des origines dont ils sont issus aux profils OK-seq. Nos objectifs initiaux consistaient donc à 1) isoler des SNS par une nouvelle méthode basée comme l'OK-seq sur l'incorporation réplicative d'EdU, la liaison "click" d'une biotine et la capture sur des billes recouvertes de streptavidine ; 2) purifier des SNS classiques ou des SNS-EdU de S. cerevisiae et vérifier si leur localisation concordait avec la position des origines bien connues chez cet organisme, mais jamais confirmées par SNS-seq ; 3) appliquer à un système de réplication in vitro d'ADN humain une stratégie de cartographie optique à haut débit en nanocanaux de molécules individuelles, que nous avions initialement développée dans un système d'extraits d'oeufs de xénope ; 4) développer une nouvelle méthode d'analyse de molécules réplicatives individuelles par incorporation de BrdU et séquençage nanopore, d'abord chez la levure puis chez l'homme ; 5) développer des méthodes de simulation numérique de la réplication permettant de comparer les prédictions de nos modèles aux profils expérimentaux disponibles ; 6) tester le rôle potentiel de déterminants génétiques ou épigénétiques potentiels par modification du génome par la technologie CRISPR-Cas9.

Visualiser la réplication de molécules individuelles d'ADN à haut débit

Pour l'objectif 1, nous avons pu récolter des SNS-EdU humains mais constaté des biais de ligation et d'amplification, ce qui n'était pas le cas avec les fragments d'Okazaki. Nous avons donc différé cet objectif et l'objectif 2 qui en dépendait, après avoir toutefois vérifié que l'OK-seq détectait correctement les origines de la levure. Pour l'objectif 3 nous avons tenté d'adapter à un système humain la méthodologie nanocanaux validée chez le xénope, mais abandonné en faveur de l'objectif 4 qui progressait plus vite. Nous avons cependant établi pour deux loci que le peignage moléculaire donne des profils RFD cohérents avec l'OK-seq avec une initiation dispersive importante entre les MaOris.

Pour l'objectif 4 nous avons développé une méthodologie de séquençage nanopore d'ADN marqué à la BrdU capable de discriminer les thymidines des BrdU. Nous avons alors séquencé de longues molécules d'ADN de levures soumises à un pulse de BrdU suivi d'une chasse par la thymidine, détecté et orienté les portions répliquées pendant le pulse et la chasse, aligné sur le génome de levure des centaines de milliers de tels signaux, confirmé les origines et terminaisons déjà connues mais aussi révélé que 9% des évènements d'initiation sont dispersifs, et établi la carte des vitesses des fourches individuelles.

Nous avons alors appliqué cette méthode (baptisée FORK-seq) à des cellules humaines en culture et obtenu des signaux de fourches comparables mais très rares. Nous avons tenté sans succès de les enrichir par incorporation d'EdU et capture sur billes streptavidine. Nous avons alors isolé les 400 répétitions en tandem du rDNA par digestion endonucléasique et purification électrophorétique et produit une nouvelle carte réplicative du rDNA humain. Enfin nous avons amélioré le marquage de l'ADN génomique total par plusieurs pulses et chasses consécutifs portant la fraction de lectures utiles de 0.1% à 30%. La carte réplicative du génome humain entier par séquençage nanopore ainsi obtenue constitue une avancée cruciale dans le domaine.

Pour l'objectif 5 nous avons développé un modèle numérique de réplication du génome gouverné par une probabilité locale d'initiation et par la diffusion de facteurs limitants pour l'initiation. Partant d'un paysage approximatif de cette probabilité basé sur les profils OK-seq, les simulations produisaient des profils de RFD ou de moment de réplication (MRT) en assez bon accord aux données. Nous avons alors utilisé l'intelligence artificielle pour améliorer ce paysage jusqu'à produire des profils MRT et RFD quasi-indistinguables des données. Ces simulations prédisent que seulement 35% des évènements d'initiation se concentrent dans les 10% du génome les plus actifs, le reste étant dispersé sur la quasi-totalité du reste. Il sera très intéressant de comparer cette répartition prédite à celle obtenue par séquençage nanopore.

Pour l'objectif 6 nous avons construit une partie des plasmides nécessaires.

Résultats

La méthode OK-seq donne chez la levure des profils réplicatifs en accord avec les connaissances antérieures (Genome Biol 2020). A l'inverse, aucun laboratoire n'a encore validé de profils SNS chez la levure. Nous avons détaillé nos protocoles et revu les résultats obtenus par OK-seq dans notre équipe ou grâce à l'exploitation de nos données par d'autres groupes (Nature Protoc 2023). L'OK-seq de cellules DT40 de poulet nous a permis par exemple d'étudier la mutagénèse par APOBEC3A (Cell Rep 2022) mais aussi de comparer localement l'OK-seq au peignage. Les profils RFD sont très semblables mais le peignage visualise de surcroît l'initiation et la terminaison dispersive que nous avions conjecturé prendre place entre les MaOris (Nucleic Acids Res 2021).

Il existe une relation mathématique simple entre la RFD, le MRT et la vitesse des fourches v, telle que dMRT/dx = RFD/v. Nous avons démontré une excellente conformité des profils génomiques RFD et MRT à cette équation et en avons extrait par simulation numérique et intelligence artificielle la probabilité d'initiation tout au long du génome, qui prédit une forte prévalence de l'initiation dispersive entre les MaOris (PLoS Comp Biol 2023).

FORK-seq a permis d'obtenir chez la levure des profils RFD en accord avec l'OK-seq, la distribution des évènements individuels d'initiation et de terminaison, et la vitesse des fourches individuelles sur l'ensemble du génome. L'initiation dispersive est de 9% chez cet eucaryote simple. Deux tiers des fourches progressent à 2.5 ± 0.15 kb/min mais le reste plus lentement, en raison de pauses parfois récurrentes mais surtout stochastiques (stress réplicatif endogène). (Genome Biol 2020, Methods Mol Biol 2022, Nature Comm 2022). De plus, nous avons développé Nanotiming, une méthode de profilage du MRT par séquençage nanopore (Nature Comm 2025).

L'extension de FORK-seq au rDNA humain, couplée à la détection de la méthylation des cytosines sur les mêmes molécules, a permis de différencier les unités rDNA transcriptionnellement actives et inactives et de clarifier la distribution de l'initiation et de la terminaison à ce locus. L'extension au génome humain entier est une grande première. FORK-seq détecte les mêmes MaOris que l'OK-seq et révèle une prépondérance frappante de l'initiation dispersive, comme prédit par nos méthodes computationnelles. L'analyse de ce gigantesque jeu de données promet une moisson de nouvelles informations sur l'initiation, l'élongation et la terminaison de la réplication dans les cellules humaines.

Nous avons écrit une revue invitée qui résume les techniques de cartographie réplicative, explique les controverses du domaine et propose pour les résoudre des hypothèses basées sur l'existence de pauses uni- ou bidirectionnelles des fourches en certaines positions critiques (Genes and Dev 2025). Nos données FORK-seq permettront de tester ces hypothèses et d'approfondir notre compréhension de la réplication du génome humain.

Perspectives

Nos nouvelles méthodes de cartographie de la réplication ont été développées chez la levure avant d'être adaptées à l'homme. Chez la levure nous établissons des cartes réplicatives à résolution accrue dans des souches de référence et de nombreux mutants permettant d'étudier par exemple l'effet du repliement tridimensionnel du génome dans le contrôle du programme réplicatif, et la régulation génétique de la réplication des séquences télomériques. Le gain en rapidité et en précision nous permet d'envisager des criblages à grande échelle de banques de mutants pour découvrir de nouveaux facteurs impliqués dans la régulation du programme réplicatif. La découverte d'un taux significatif d'initiation dispersive chez la levure facilitera l'élucidation des mécanismes moléculaires qui gouvernent ce phénomène probablement universel chez les eucaryotes.

Chez l'homme nos données permettront de comprendre le rôle de certains motifs de séquence ou de chromatine dans l'établissement et l'activation de sites de démarrage de la réplication et dans le contrôle de leur efficacité, ainsi que dans le contrôle de la vitesse de propagation des fourches de réplication dans des cellules normales ou pathologiques, soumises ou non à un stress réplicatif exogène. L'adaptation à des biopsies permettra de quantifier le stress réplicatif dans des tumeurs soumises ou non à des traitements anticancéreux et dans d'autres pathologies. L'adoption de nos techniques par d'autres laboratoires sera facilitée par la mise à disposition de nos protocoles biologiques et informatiques et par la mise au point de versions simplifiées à débit moindre mais plus faciles à mettre en oeuvre.

La détection du BrdU ou d'autres analogues peut aussi être mise à profit pour étudier la réparation de l'ADN ou les mécanismes de recombinaison méiotique ainsi que le contrôle de la synthèse de la thymidine au cours de la phase S. Le séquençage nanopore permet également d'étudier la structure de la chromatine, par exemple en analysant la méthylation différentielle de l'ADN par des méthylases bactériennes exprimées in vivo, fusionnées ou non à des protéines d'intérêt. La combinaison de tels marquages avec ceux que nous utilisons pour l'étude de la réplication permettra d'étudier la relation entre ces paramètres à l'échelle de chaque molécule. L'extension de ces études à de multiples organismes modèles permettra de comprendre l'évolution et la diversification de ces mécanismes fondamentaux du vivant.

Résumé de soumission

Le but de ce projet est une compréhension quantitative rigoureuse du programme de réplication du génome humain. Ceci est essentiel car les perturbations de la réplication menacent la stabilité du génome dans les cellules souches, le cancer, le vieillissement et d'autres affections. La nature des origines de réplication est controversée, et leur description varie selon les laboratoires et les techniques. Le but de ce projet est de réconcilier ces visions disparates et d'établir un panorama définitif de la réplication basé sur la création de données de haute qualité, leur modélisation mathématique intégrée, et la dissection génétique des éléments déterminant en cis et en trans la position des origines.
Au cours de projets ANR antérieurs, nous avons créé de nouvelles méthodes de cartographie de la réplication en molécule unique (MU) à haut débit dans des nanocanaux, ou par séquençage d'ADN néorépliqué (Repli-Seq) ou de fragments d'Okazaki (OK-seq) purifiés de populations cellulaires. Nous avons développé des modèles numériques et analytiques pour exploiter ces données et avons proposé un modèle de réplication "en cascade" avec initiation efficace à des origines "maîtresses" (MaOris), localisées dans des segments de chromatine ouverte, suivie d'une activation en cascade d'origines moins efficaces et plus dispersées. Les MaOris, zones d'initiation (ZIs) étendues (10-100 kb) mais bornées, donnent lieu à un seul évènement d'initiation par phase S. Non transcrites, riches en enhancers, les MaOris bordent souvent les TADs (topologically associating domains). Les MaOris n'expliquent que 10-30% des évènements d'initiation d'une phase S, ce qui suggère une initiation dispersive "cachée", ingrédient indispensable à la modélisation correcte de l'ensemble des données. Sa démonstration directe nécessitera des études en MU à haut débit.
La cartographie des origines repose sur l'isolement de fragments de restriction porteurs de "bulles" de réplication, de petits ADN simple brins néosynthétisés (SNS) ou, plus récemment, d'ADN néosynthétisé dans des cellules synchronisées en présence d'hydroxyurée et d'éthynyl-désoxyuridine (EdU-seq-HU). Les bulles et l'EdU-seq-HU montrent de grandes ZIs, comme l'OK-seq et les données MU, mais les SNS montrent des pics étroits. Deux hypothèses peuvent expliquer ce désaccord. Les SNS pourraient être impurs, ou à certaines positions se surrépliquer et s'accumuler sous forme abortive, désappariée des brins parentaux, donnant ainsi de forts signaux en SNS-seq mais pas en bubble-seq ou en MU. Les SNS productifs, transitoires, donneraient un signal plus faible que les SNS abortifs. Nous testerons ces hypothèses par plusieurs approches. Premièrement, nous élaborerons une technique SNS basée sur l'incorporation d'EdU (5-ethynyl-2'-deoxyuridine), comme réalisé avec succès pour les fragments d'Okazaki. De façon cruciale, les méthodes SNS n'ont jamais été testées chez S. cerevisiae, dont les origines de réplication sont connues précisément. Nous séquencerons des SNS de levure purifiés par plusieurs méthodes et testerons leur alignement sur les origines. La meilleure méthode sera ensuite appliquée aux cellules humaines. Deuxièmement, l'analyse de la réplication en MU à haut débit dans des nanocanaux sera appliquée à des extraits acellulaires ainsi qu'à des cellules humaines pour révéler les origines molécule par molécule, sur l'ensemble du génome, de façon automatisée. Ces deux approches indépendantes devraient confirmer la localisation et révéler la structure interne des ZIs, dévoiler l'initiation dispersive, et alimenter des modèles mathématiques intégratifs qui en extrairont les paramètres cinétiques du modèle en cascade. La compréhension détaillée de la cinétique de réplication nous permettra de déchiffrer l'influence du repliement 3D de la chromatine sur le programme réplicatif. Enfin, nous utiliserons l'information ainsi obtenue pour disséquer génétiquement les déterminants des MaOris par la technologie CRISPR-Cas9.

Olivier HYRIEN (Institut de biologie de l'Ecole Normale Supérieure)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

IBENS Institut de biologie de l'Ecole Normale Supérieure
LPENSL LABORATOIRE DE PHYSIQUE DE L'ENS DE LYON - CNRS

Aide de l'ANR 536 863 euros
Début et durée du projet scientifique : mars 2020 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.