Réseau d'interactions des facteurs de transcription pour dévoiler la nature combinatoire de la régulation de l'expression génétique – TRANSINET
Au sein des organismes vivant l'expression des gènes est régulée de manière fine grâce à l'action conjointe de protéines régulatrices. Parmi ces protéines, les facteurs de transcription (facteurs ci-après) ont un rôle primordial puisqu'ils lient des séquences spécifiques dans les promoteurs des gènes pour initier leur régulation. Les facteurs de transcription peuvent s'associer pour former des complexes et réguler l'expression de nouveaux gènes ou pour modifier le sens ou le niveau de régulation de gènes déjà ciblés par l’un des deux facteurs isolément. Les complexes diversifient ainsi le répertoire et les niveaux de régulation de gènes cibles des facteurs de transcription. L'étendue de ce phénomène, le nombre de complexes, l'identité des partenaires et la façon dont ils lient l'ADN reste peu connu.
Ce projet propose de développer un modèle bioinformatique pour prédire l’existence de complexes protéiques formés par des facteurs de transcription et susceptibles de réguler l’expression des gènes chez la plante Arabidopsis thaliana. Dans un second temps, le projet explorera les prédictions du modèle pour vérifier si l’existence des complexes prédits , et pour caractériser leur mode de liaison à l’ADN et leurs gènes cibles.
La découverte des nouveaux complexes se fera en développant un modèle qui intègre des indices éparpillés dans différents types de données génomiques. Ces indices sont (i) la liaison commune des facteurs sur des régions promotrices, les motifs et les combinaisons de motifs ADN liés par les facteurs sur ces régions liées, (i) la co-expression des facteurs, (iii) les gènes cibles communs aux deux facteurs et (iv) la co-évolution de résidus d’acides-aminés entre les deux facteurs formant un complexe. Le modèle sera obtenu par apprentissage automatique sur ces données (machine learning): le modèle sera construit et ses paramètres ajustés de façon à optimiser les prédictions par rapport à un ensemble de facteurs connus pour former des complexes.
Les interactions nouvellement prédites par le modèle, en particulier celles entre les facteurs de transcription étudiés dans notre laboratoire et de nouveaux partenaires, seront explorées en détail pour comprendre comment ces complexes se forment (surface d’interaction), comment ils lient l'ADN et pour connaître les gènes et fonctions qu'ils régulent.
Les résultats du modèle seront représentés sous la forme d’un réseau d’interaction pour l'ensemble des facteurs de transcription d'Arabidopsis thaliana. Ce réseau sera mis à disposition de la communauté pour que les biologistes explorent à leur tour les partenaires potentiels de leurs facteurs transcriptions favoris. A moyen terme, le modèle pourrait être appliqué à d’autres espèces de plantes telles que le riz et le maïs, deux espèces caractérisées par de nombreuses données génomiques. Cette approche représente un gain de temps considérable par rapport à la méthode génétique et elle fonctionne même dans le cas où plusieurs facteurs jouent un rôle redondant.
Coordination du projet
Romain BLANC-MATHIEU (LABORATOIRE DE PHYSIOLOGIE CELLULAIRE ET VEGETALE)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
LPCV LABORATOIRE DE PHYSIOLOGIE CELLULAIRE ET VEGETALE
Aide de l'ANR 273 597 euros
Début et durée du projet scientifique :
décembre 2023
- 48 Mois