Design moléculaire pour la lecture MS/MS haut débit de polymères encodés – shapeNread
Design moléculaire pour la lecture haut débit de polymères digitaux
Le projet shapeNread vise à optimiser la structure tridimensionnelle de polymères digitaux pour permettre leur séquençage à haut débit. Les données codées seront segmentées dans des blocs libérés dans une première étape MS/MS puis chaque segment activé dans une seconde étape MS/MS pour séquençage. Des marqueurs spécifiques seront conçus par modélisation moléculaire pour distinguer ces segments en termes de conformation et ainsi permettre un décodage haut débit par couplage MS/MS-IMS-MS/MS.
Lecture à haut débit d’informations codées à l’échelle moléculaire
Le contexte scientifique du projet shapeNread est le stockage massif de l’information et le besoin de supports alternatifs aux disques durs actuellement utilisés dans des data centers très énergivores pour archiver les énormes quantités de données digitales générées quotidiennement. Un point-clé est d’augmenter la densité de stockage, c’est-à-dire diminuer la taille occupée par chaque bit utilisé pour coder l’information. Idéalement, il faudrait que la taille occupée par un bit soit de l’ordre du sub-nanomètre (i.e., l’échelle atomique ou moléculaire) au lieu des quelques dizaines de nanomètres dans les disques durs actuels. Des polymères avec une séquence contrôlée de monomères définis comme les bits 0 et 1 de l’alphabet ASCII ont récemment été proposés pour stocker de l’information digitale. A cet effet, notre groupe a développé une variété de macromolécules à séquence définie et strictement monodisperses. Le système de codage est basé sur une variation de masse entre les monomères 0 et 1 et permet d’utiliser la spectrométrie de masse en tandem (MS/MS) comme technique de séquençage permettant de «lire« l’information «écrite« dans les chaînes. Néanmoins, cette étape de lecture doit être améliorée. Si la limitation de la MS/MS pour le séquençage de longues chaînes a été résolue par la segmentation de l’information dans des blocs, décoder un polymère entier reste un processus assez lent avec le nombre d’étapes d’activation secondaire qui augmente avec le nombre de segments à séquencer. L’utilisation de marqueurs pour induire des variations de conformation de tous les segments, et donc leur séparation IMS, permettrait de résoudre ce problème car le séquençage des polymères digitaux s’effectuerait alors en une seule expérience MS/MS-IMS-MS/MS. Une telle méthodologie de lecture à haut débit contribuerait à maintenir notre leadership dans le domaine très compétitif des polymères digitaux et constitue une étape-clé dans le développement de futurs dispositifs de stockage.
Afin de rationaliser leur synthèse, les marqueurs seront conçus par modélisation moléculaire pour conférer aux segments des sections efficaces de collision (CCS) suffisamment différentes pour qu’ils soient séparés en IMS. Le succès du projet shapeNread repose donc sur la capacité d’un modèle théorique à prédire les formes adoptées par les segments en fonction de leur marqueur pour ne synthétiser que les seuls polymères ayant les structures les plus pertinentes. Ce modèle prédictif sera construit et évalué à l’aide d’une série de macromolécules déjà disponibles dont la CCS sera mesurée expérimentalement puis confrontée aux valeurs calculées. Les chaînes ciblées étant composées d’unités phosphodiesters facilement ionisables en mode négatif, une procédure de calibration fiable des anions en IMS devra d’abord être développée pour garantir la fiabilité des CCS expérimentales à même de valider les performances du modèle prédictif. Enfin, la gestion des données brutes (IMS et MS/MS) dans le logiciel MS-DECODER sera nécessaire pour le traitement en ligne des données digitales sans intervention utilisateur.
Pour valider le modèle théorique qui doit prédire la modification conformationnelle induite par les marqueurs, les CCS calculées par le modèle doivent être confrontées à des valeurs expérimentales mesurées par IMS. Or, la fiabilité de ces mesures est conditionnée par l’existence d’étalons appropriés dont la recherche empirique est souvent fastidieuse, notamment dans le mode d’ionisation négatif imposé par nos analytes. Cependant, un logiciel open-source appelé IMSCal publié début 2021 par B.T. Ruotolo et al. procure un moyen d’obtenir des CCS expérimentales sans nécessité d’étalons originaux dans le cas de mesures en mode positif. Nous avons opéré les modifications nécessaires à ce logiciel et récemment démontré la robustesse de son utilisation en mode négatif. Le contournement de ce point bloquant nous a permis d’évaluer la validité des méthodes théoriques mises en œuvre dans le modèle prédictif. La stratégie adoptée a consisté à développer deux modèles : le modèle 1 basé sur l’optimisation de géométrie et la dynamique moléculaire, pour des résultats plus précis mais plus couteux en temps vs le modèle 2, basé sur une analyse conformationnelle par DFT mais sans optimisation de géométrie, donc moins précis mais plus rapide. Dans les deux cas, le calcul final de CCS est réalisé par la méthode de la trajectoire. Pour tester ces modèles, nous avons utilisé la variation mineure de 6 Å2 induite par la substitution de deux atomes H par deux groupements CH3 quand un bit 0 est remplacé par un bit 1 dans la chaîne codée. Etonnamment, c’est le modèle 2 qui a fourni les données le plus en adéquation avec les résultats expérimentaux, avec une variation prédite de 8 Å2. Les performances prometteuses du modèle 2 sont actuellement évaluées pour des substitutions de marqueurs. En parallèle, des alkoxyamines portant différents marqueurs ont été préparées pour la synthèse de macromolécules codées. Leur étude MS/MS et IMS ont permis de pré-sélectionner les designs les plus prometteurs.
Le modèle prédictif bientôt disponible sera testé vers la fin de l’année 2021 pour des macromolécules dont les CCS expérimentales ont déjà été mesurées : ces résultats nous permettront alors de trancher entre les tâches à intensifier, développement du modèle prédictif et mise au point du couplage MS/MS-IMS-MS/MS à l’Institut de Chimie Radicalaire (ICR) à Marseille vs travaux de synthèse menés à l’Institut Charles Sadron (ICS) à Strasbourg. En parallèle, la collaboration entre l’ICR et l’Institut Pluridisciplinaire Hubert Curien (IPHC) à Strasbourg consistera à implémenter dans le logiciel MS-DECODER les commandes à même de gérer les données multidimensionnelles générées lors du séquençage des macromolécules digitales. Par ailleurs, si le modèle 2 s’avère suffisamment performant pour la prédiction des modulations de CCS induites par les marqueurs, il sera intéressant, d’un point de vue plus fondamental, d’identifier d’éventuels problèmes liés à l’optimisation de géométrie propre au modèle 1. Cependant, il est nécessaire de revoir la programmation des livrables initialement définie dans le diagramme de Gantt. Même si nous avons pour l’instant respecté dans les grandes lignes de notre plan de travail, les phases de confinement et de télétravail ont impacté le déroulé expérimental du projet. Il est donc plus raisonnable de décaler les différentes tâches et livrables de quelques mois.
Une publication dans des revues internationales à comité de lecture :
Design of abiological digital poly(phosphodiester)s.
L. Charles, J.-F Lutz
Accounts of Chemical Research 2021, 54 (7) 1791-1800
Une communication orale dans un congrès national:
Synthesis of alkoxyamine-containing mass-tags allowing optimal MS/MS sequencing of digital polymers.
T. Schutz, E. Laurent, L. Oswald, J.-L. Clément, D. Gigmes, L. Charles, J.-F. Lutz
SFC-Alsace Young Scientist Webinar, 28th June 2021
Le projet shapeNread vise à optimiser la structure tridimensionnelle de polymères synthétiques encodés pour permettre leur séquençage à haut débit en couplant la spectrométrie de masse en tandem à la spectrométrie de mobilité ionique. Ces polymères seront synthétisés de sorte à segmenter les informations binaires qu’ils contiennent. Les segments seront décorés par un marqueur spécifique afin de les distinguer en termes de masse et de conformation. Pour ce faire, les marqueurs seront conçus par modélisation moléculaire pour conférer aux segments des sections efficaces de collision distinctes. Une fois libérés de la chaîne polymérique lors d’une première étape de fragmentation, ces segments pourront alors être séparés par mobilité ionique pour séquençage individuel après une seconde étape de fragmentation. Un tel design permettra la lecture haut débit par MS/MS-IMS-MS/MS de l’information codée dans des macromolécules contenant chacune au moins un décabyte de données. Un développement spécifique du logiciel MS-DECODER assurera une analyse automatisée des données spectrales.
Coordination du projet
Laurence CHARLES (Institut de Chimie Radicalaire)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
ICR Institut de Chimie Radicalaire
ISIS Institut de science et d'ingénierie supramoléculaires
IPHC Institut Pluridisciplinaire Hubert Curien IPHC
Aide de l'ANR 511 714 euros
Début et durée du projet scientifique :
décembre 2019
- 48 Mois