Modélisation Structurale d'ARN Intégrant des Données de Séquençage – INSSANE
La structures des molécules d'ARN et ses complexes sont essentiels pour comprendre leur biologie. Leur centralité est frappante chez les virus à ARN simple-brin (Influenza, HIV, Chikungunya, SARS-CoV2...), où l'ARN constitue le matériel génomique. De grande taille, ces ARN sortent du champs d'application des méthodes in silico, ainsi que des approches structurales expérimentales à haute-résolution.
Au sein du projet INSSANE, nous développerons des protocoles expérimentaux intégrés, couplés à des méthodes bioinformatique efficaces pour la modélisation structurale des grands ARN. Nous sonderons et prédirons l'architecture d'ARN génomiques de virus d'intérêt bio-médical. Le champs d'application de nos méthodes bioinformatique ne se limitera pas aux virus, mais devrait s'appliquer à d'autres grands ARN (lncRNAs, Introns). Nous développerons SHAPE-Cut, un nouveau protocole facilitant le sondage chimique des grands ARN. Il mesurera l'accessibilité au solvant au sein des ARN, en combinant chimie novatrive et séquençage de 3ième génération. Comparé aux protocoles de sondages actuels, SHAPE-Cut devrait limiter les biais, autoriser une mise en oeuvre simplifiée, et produire des informations structurales plus précises, grâce à des traitement de données et méthodes bioinformatiques dédiées. Nous combinerons en outre ces données de sondage, indiquant une accessibilité locale, avec des donnés de réticulation (crosslinking), suggérant des interactions longues-distances. Nous appliquerons un protocole récent de réticulation sur des ARN choisis, et en croiserons les résultats avec une recherche, à échelle génomique, des interactions ARN-ARN stables par des techiques d'indexation à base de graines. Enfin, nous concevrons une méthode de prédiction structurale intégrative, combinant réactivité, interactions longues-distances, données évolutives et stabilité thermodynamique. Ses résultats feront l'objet de nouvelles visualisations multi-échelle, et faciliterons le dialogue interdisciplinaire.
Des verrous algorithmiques devront être levés pour améliorer le traitement des données de séquençage, centrales aux protocoles modernes de sondage et réticulation. L'information structurale y est en effet révelée indirectement, à travers des modifications (mutations, stop) observables en séquence. Cependant, l'étape cruciale de mapping des données primaires de sondage a été relativement négligée, ce malgré des difficultés identifiées (chimères, erreurs informatives), à l'origine de biais d'analyse. Nous proposerons des méthodes de mapping adaptées à nos protocoles, basées sur des structures de données et d'indexation pour tirer un parti optimal des données. A l'inverse, certaines ambiguités de mapping pourront être levés à l'aune de prédictions structurales. Nous viserons aussi une déconvolution du signal issue d'isoformes et sous-génomes viraux. Notre méthode intégrative finale sera formulée comme un problème de stable pondéré, dans un graphe de conflit comprenant structures alternatives locales et interactions longue distance. Il sera abordé via une algorithmique paramétrée (FPT) par la largeur arborescente, et produira un ou plusieurs modèles structuraux stables et compatibles avec les données évolutives/expérimentales.
En intégrant des spécialistes en bioinformatique des ARN, analyse de séquence, biochimie et chimie organique, notre consortium possède un positionnement unique pour aborder la problématique du sondage d'ARN. La réalisation de ce projet bénéficiera de la mise en commun d'expertises en analyse de données de séquençage et prédiction combinatoire de structures d'ARN, champs traditionnellement disjoints en bioinformatique.  Ses synérgies s'appuieront sur des collaborations existantes, soutenant un dialogue interdisciplinaire fructueux entre des partenaires portant des regards complémentaires sur l'ARN en tant qu'objet d'étude.
Coordination du projet
Sebastian Will (Laboratoire d'Informatique de l'Ecole Polytechnique)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
					
						
							LCBPT Laboratoire de Chimie et Biochimie Pharmacologiques et Toxicologiques
						
					
						
							CiTCoM Cibles Thérapeutiques et Conception de Médicaments
						
					
						
							LIX Laboratoire d'Informatique de l'Ecole Polytechnique
						
					
						
							CRIStAL Centre de Recherche en Informatique, Signal et Automatique de Lille
						
					
				
				
					Aide de l'ANR 429 623 euros
				
				Début et durée du projet scientifique :
					
						- 48 Mois