La vie articifielle comme banc d'essai pour l'évolution moléculaire – Evoluthon
Evoluthon, la vie artificielle comme banc d'essai pour l'évolution moléculaire
Nous proposons une manière originale et fondée sur des principes de comparer des modèles et des méthodes pour les études d'évolution moléculaire avec des simulations informatiques. Nous nous inspirons du principe de « double aveugle » qui régit les études de test en science en général, ainsi que certaines techniques de développement de logiciels, où les équipes de développement et de test sont séparées et travaillent de manière indépendante.
La vie artificielle comme banc d'essai
Les méthodes d'évolution moléculaire sont confrontées à un problème de validation : il n'est pas possible de voyager dans le temps et de vérifier des hypothèses et des prédictions, qui concernent des événements pouvant aller jusqu'à 4 milliards d'années. Dans toute la littérature scientifique, l'approche de validation la plus populaire reste les simulations informatiques. L'évolution du génome peut être simulée in silico sur un nombre de générations bien plus élevé que dans l'évolution expérimentale, à un coût bien moindre. Ensuite, les résultats des simulations peuvent être utilisés comme instances de méthodes d'inférence.<br />Réaliser des simulations pour la validation nécessite une réflexion épistémologique et organisationnelle. En effet très souvent une méthode individuelle est testée avec une simulation ad hoc, c'est-à-dire une simulation faite exprès pour la tester. Dans cette situation certains éléments de la méthode sont inévitablement intégrés dans le simulateur, qui est alors susceptible de ne générer que des instances faciles pour cette méthode et n'a aucune chance d'atteindre la complexité des données réelles.
(1) Les méthodes d'inférence et les benchmarks simulés ne doivent pas être construits par la même équipe. De plus, les équipes de référence et d'inférence, tout en ayant une culture biologique commune, devraient être « méthodologiquement aveugles » les unes par rapport aux autres, ce qui signifie que les principes des méthodes d'inférence ne devraient pas être inclus dans les simulations, et inversement, les principes spécifiques aux simulations ne devraient pas être utilisé par des méthodes d'inférence. A cet effet, les méthodes de simulation et d'inférence devraient être produites par des équipes appartenant à des communautés scientifiques différentes.
(2) Les benchmarks simulés sont produits par un modèle qui n'a pas été conçu pour être utilisé comme outil de benchmarking. Bien que cela semble difficilement faisable et quelque peu contradictoire, nous soutenons que c'est la façon d'aborder le principe de double aveugle, et qu'il est possible pour l'évolution moléculaire en raison de l'existence de communautés scientifiques disjointes autour de la modélisation de l'évolution du génome.
(3) Dans la mesure du possible, les processus, et non les modèles, doivent être simulés. Cela signifie qu'au lieu de régler les paramètres pour qu'ils ressemblent à des données empiriques dans un sens arbitraire, nous devrions découvrir les processus qui produisent ces données empiriques et les mettre en œuvre dans un modèle mécaniste. Bien qu'il soit souhaitable de produire des données simulées qui ressemblent à des données empiriques, les définitions des mesures de similarité peuvent elles-mêmes être des choix de conception ad hoc, dépendant d'une méthode d'inférence particulière.
Un effort de coopération est nécessaire pour organiser et standardiser les benchmarks, comme le reconnaît par exemple l'ajout d'une section dans PLoS Computational Biology dédiée au benchmarking, ou la prochaine édition en 2019 d'un numéro spécial de Genome Biology sur les études de benchmarking.
Le simulateur issu de la vie artificielle est en cours de construction.
Dès qu'il sera opérationnel, nous testerons les données issues du simulateur sur des programmes de phylogénie.
Pas encore
Nous proposons d’implémenter un principe original de test par simulations informatiques pour les méthodes d'inférence en génomique évolutive. Ces méthodes, bien qu’utilisées quotidiennement dans des domaines aussi divers que la santé, l’agriculture, la protection de la biodiversité ou la justice, font des inférences de type historique difficiles à tester expérimentalement. La faiblesse des systèmes actuels d'évaluation est d’insérer dans des simulations les mêmes hypothèses simplificatrices que dans les méthodes d'inférence, car ils sont développés par les mêmes concepteurs, à des fins de validation. Par exemple, les gènes sont définis a priori comme des unités évolutives, ce qui rend triviale leur annotation et classification. Les espèces éteintes ne sont habituellement pas simulées si aucune mesure n'est faite sur elles, même si elles interfèrent via l'hybridation ou le transfert horizontal de gènes.
Nous proposons une approche nouvelle de test par banc d'essai plutôt que de validation, où les équipes de développement et l'équipe de tests seront distinctes. Nous rassemblons donc deux équipes, l'une en phylogénie, l'autre en vie artificielle, pour construire des simulations “aveugles” aux méthodes d’inférence.
Des tests préliminaires ont prouvé que ce principe scientifique universellement reconnu (tests à l'aveugle) mais jamais utilisé en évolution, pouvait mettre à jour des défauts inattendus des méthodes, et les corriger. Nous mettrons à disposition de la communauté les résultats des simulations pour en faire un standard de validation. Cette preuve de principe est encourageante pour l'efficacité de notre démarche.
Nous allons généraliser ce principe à d'études évolutives en adaptant un programme issu de la vie artificielle, Aevol. De façon importante Aevol n'a pas été conçu pour générer un banc d'essai, ce qui le rend paradoxalement intéressant pour être utilisé comme tel. Nous organiserons la collaboration entre les deux équipes sur un mode de défis mutuellement adressés par les uns et les autres, en respectant une communication sur les processus biologique, et en évitant la communication sur les modèles informatiques, qui devront autant que possible rester distincts.
Nous organiserons une compétition internationale pour promouvoir cette démarche et tester un grand nombre de méthodes. Le projet aura donc également un effet de renforcer la coopération entre les équipes et des meilleures pratiques de comparaisons de méthodes.
Nous appliquerons en particulier le banc d'essai à des méthodes modernes de phylogénie développés dans l'équipe, intégrant plusieurs échelles évolutives et leurs interactions.
Coordination du projet
Eric TANNIER (Centre de Recherche Inria Grenoble - Rhône-Alpes)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
INRIA GRA Centre de Recherche Inria Grenoble - Rhône-Alpes
LBBE BIOMÉTRIE ET BIOLOGIE EVOLUTIVE
Aide de l'ANR 298 339 euros
Début et durée du projet scientifique :
octobre 2019
- 48 Mois