TERC - Tremplin-ERC 2017

Nouveaux modèles prédictifs en pharmacogénomique des cancers pour améliorer les therapies moléculairement ciblées – ModellingCancerOmics

Novel Predictive Models for Cancer Pharmacogenomics to Improve Molecularly Targeted Therapy

L'administration de plus d'un médicament peut présenter de nombreux avantages : une efficacité plus élevée, une toxicité plus faible et au moins une apparition tardive de la pharmacorésistance acquise2-4. La découverte fortuite en clinique a été une source traditionnelle d'associations médicamenteuses efficaces5,6. Pourtant, ce n'est que récemment que des efforts systématiques à grande échelle ont été déployés pour les identifier.

Enjeux et objectifs

Une façon efficace de découvrir de nouvelles molécules actives est d'utiliser des méthodes de prédiction in silico. Ces méthodes établissent un lien entre l'activité biologique d'un composé chimique et sa structure moléculaire, et elles ont été utilisées avec succès dans une grande variété de projets pharmacologiques et de conception de médicaments, y compris la recherche sur le cancer8-10. Ils peuvent être étendus au-delà des molécules individuelles à l'aide d'approches de modélisation spéciales11.<br />L'un des principaux obstacles à la modélisation de la synergie des médicaments a été l'absence de données homogènes (c'est-à-dire d'ensembles de données générés avec le même dosage, de conditions expérimentales et de quantification de la synergie). Cette situation a toutefois été atténuée par la récente disponibilité d'importants ensembles de données provenant du dépistage à haut débit (HTS) de combinaisons de médicaments sur les lignées cellulaires cancéreuses. Par exemple, Merck a publié un ensemble de données sur les synergies HTS12, couvrant des combinaisons de 38 médicaments et leur activité contre 39 lignées cellulaires cancéreuses (plus de 20 000 synergies mesurées). Cet ensemble de données a été utilisé pour construire des modèles de régression et de classification prédictifs à l'aide de multiples méthodes d'apprentissage automatique13. AstraZeneca a mené une étude de dépistage portant sur 910 combinaisons de médicaments et 85 lignées cellulaires cancéreuses (plus de 11 000 scores de synergie mesurés), qui a ensuite été utilisée pour un défi DREAM14. Très récemment, le National Cancer Institute (NCI) des États-Unis a fourni le plus important ensemble de données publiques sur les combinaisons de médicaments contre le cancer. Ce NCI-ALMANAC a testé plus de 5 000 combinaisons de 104 médicaments expérimentaux et approuvés, avec des activités mesurées sur 60 lignées de cellules cancéreuses (plus de 290 000 synergies mesurées)15.

Méthodes / Approches

Nous construisons in silico un modèle prédictif individuel pour chaque lignée cellulaire en utilisant l'algorithme populaire Random Forest (RF)16. Nous construisons également un deuxième modèle par lignée cellulaire en utilisant XGBoost (XGB)17, une méthode récente d'apprentissage machine qui a permis de gagner de nombreux concours Kaggle et de construire des modèles QSAR hautement prédictifs. Pour maximiser la prédictivité des modèles, nous effectuons une exploration à grande échelle du dispositif d'apprentissage machine : caractéristiques moléculaires codant la structure des médicaments dans les combinaisons, stratégies de prétraitement des données,...
Nous validons ces modèles pour des scénarios de prédiction couramment utilisés : p. ex. combinaison de médicaments invisibles (validation d'un modèle sur un sous-ensemble de combinaisons choisies au hasard qui n'a pas participé à sa formation) ou partenaire de drogue invisible (validation croisée de médicaments sans ordonnance).
Il est important de noter que nous étudions également l'utilisation de techniques d'estimation de la fiabilité afin d'améliorer davantage la prédiction de la synergie des combinaisons de médicaments. Cette technique est basée sur la méthode d'apprentissage d'ensemble Random Forest.
En outre, nous nous attaquons au problème de la prédiction de la synergie des médicaments du point de vue des données biologiques. Nous recueillons des données de profilage moléculaire à partir de CellMiner18 pour construire des modèles prédictifs par RF, XGB et un équivalent linéaire - Elastic Nets (EN). Nous appliquons une nouvelle technique - la complexité optimale du modèle (MOC) - pour détecter et utiliser les biomarqueurs les plus informatifs de la modélisation.
Les données de profil moléculaire nous permettent également d'envisager une éventuelle intégration des données chimiques et biologiques pour construire des modèles multitâches dont la puissance prédictive a été démontrée dans la littérature.

Résultats

Jusqu'à présent, nous avons découvert qu'il est possible de prédire avec une grande précision la synergie des combinaisons de médicaments invisibles avec les lignées cellulaires du panel NCI-60 en exploitant les données NCI-ALMANAC. Nous avons établi un flux de travail ML général (types de caractéristiques structurelles, stratégie de prétraitement des données, méthode ML) pour Random Forest et XGBoost afin de construire des modèles prédictifs sur ces données. Cela nous a finalement permis de construire des modèles de lignées cellulaires sur des données provenant de l'un des centres de dépistage du NCI avec une grande précision : La corrélation de Pearson entre les valeurs de synergie prévues et observées se situe entre 0,48 et 0,86.
Certaines lignées cellulaires et combinaisons de médicaments peuvent être prédites avec une précision beaucoup plus grande que d'autres. Par exemple, les modèles pour la lignée cellulaire de mélanome SK-MEL-5 fonctionnent mieux avec n'importe quelle méthode. La validation croisée sans retrait d'un médicament nous permet également d'indiquer les meilleurs et les pires médicaments partenaires : par exemple, il est difficile de prédire la synergie pour les paires contenant du trioxyde de diarsenic, alors que, d'autre part, les combinaisons avec des inhibiteurs de tyrosine kinase sont prédites avec grande précision.
Nos résultats démontrent également que le fait de se limiter aux prévisions les plus fiables peut entraîner une très grande amélioration. La prédiction de fiabilité est en effet une technique puissante, mais peu utilisée : nous avons réussi à réduire l'erreur de prédiction jusqu'à deux fois selon la lignée cellulaire.
Nous avons également obtenu des modèles hautement prédictifs de synergie des médicaments basés sur des données de profil moléculaire. L'approche MOC nous permet d'identifier un petit sous-ensemble de seulement 12 biomarqueurs qui sont suffisants pour modéliser 426 combinaisons de médicaments.

Perspectives

Ce travail constitue la première tentative de modélisation de la synergie des médicaments anticancéreux à partir de la base de données NCI-ALMANAC récemment publiée. À l'heure actuelle, il s'agit de l'ensemble de données le plus important de l'HTS contenant des mesures expérimentales de la synergie des médicaments contre un grand nombre de lignées cellulaires cancéreuses. Un autre avantage de ces données est qu'elles ont déjà été utilisées pour trouver empiriquement de nouvelles combinaisons de médicaments qui n'ont pas encore été testées et pour lancer des essais cliniques (identificateurs NCT02211755 et NCT02379416 pour les essais cliniques.gov). Cela fait de NCI-ALMANAC une ressource très précieuse pour la modélisation.
Nos modèles ont un pouvoir prédictif élevé et sont donc recommandés pour la découverte et la validation prospective de nouvelles combinaisons. Plus important encore, nous fournissons non seulement la prédiction numérique de la synergie, mais aussi l'estimation de la fiabilité de la prédiction. Cela permet de ne sélectionner que les résultats les plus prometteurs et, en même temps, les plus fiables d'un criblage virtuel de tout nouvel ensemble de données, accélérant ainsi considérablement la validation expérimentale.
Les modèles construits à partir de données de profils moléculaires présentent une vision alternative au problème : nous sommes capables de prédire la synergie non seulement d'un point de vue strictement chimique, mais aussi d'un point de vue biologique. Les résultats obtenus démontrent notre capacité à sélectionner un sous-ensemble pertinent de biomarqueurs liés à la synergie d'une combinaison, ce qui nous permet non seulement de prédire la synergie/antagonisme, mais aussi de l'interpréter mécaniquement et de traduire la portée du modèle en nouvelles lignées cellulaires et types de cancer.
Le workflow de modélisation développé dans ces deux parties nous permettra à terme de construire des modèles combinant ces deux aspects.

Productions scientifiques et brevets

En premier lieu, nous rendons accessibles au public les modèles, ainsi que le code utilisé pour les construire. Cela contribuera avant tout à l'amélioration potentielle des modèles, en utilisant des méthodes d'apprentissage machine supplémentaires (en particulier, des techniques d'apprentissage approfondi), des données supplémentaires (y compris les données de NCI-ALMANAC qui n'ont pas encore été intégrées), etc.
Deuxièmement, cela ouvre la possibilité d'utiliser des modèles obtenus pour la prédiction prospective de la synergie de nouvelles combinaisons de médicaments sur les 60 lignées cellulaires présentes dans NCI-ALMANAC. Nous prévoyons déjà d'appliquer nos modèles pour prédire les synergies entre les médicaments de NCI-ALMANAC et environ 9000 médicaments testés dans la base de données ZINC. Il s'agit d'un screening virtuel à grande échelle, qui sera suivi d'une éventuelle validation expérimentale des candidats les plus prometteurs en collaboration avec le Dr Eddy PASQUIER (CRCM, Marseille).
La création de modèles d'apprentissage multitâches utilisant à la fois des données sur les médicaments (caractéristiques de la structure chimique) et des données biologiques (profils moléculaires) nous permettra d'élargir la portée non seulement à de nouveaux médicaments et combinaisons de médicaments, mais aussi à de nouvelles lignées cellulaires et types de cancer, y compris 1000 lignées cellulaires GDSC (www.cancerRxgene.org), qui nécessitent une harmonisation entre NCI-ALMANAC et GDSC des profils de mutation, de copy-nombre, de méthylation de l'ADN et d'expression génique.
Enfin, les résultats des travaux sont également diffusés sous forme de publications dans des revues scientifiques, en commençant par la prédiction de la synergie des combinaisons de médicaments sur la base d'informations chimiques et de données de profil moléculaire.

Résumé de soumission

Les médicaments ciblés, qui inactivent des cibles moléculaires spécifiques sur lesquelles les tumeurs cancéreuses se reposent pour stimuler la croissance cellulaire, ont fourni des traitements plus spécifiques et donc avec moins d'effets secondaires que la chimiothérapie cytotoxique traditionnelle. Malheureusement, ces traitements ne sont efficaces que chez certains patients et il est encore très difficile d'identifier les patients susceptibles d’être réceptifs, avant de leur administrer le médicament. Cependant, la disponibilité croissante des données provenant des technologies de profilage moléculaire et des screening de médicaments constitue une opportunité sans précédent d'améliorer notre capacité à prédire quels patients répondront à un médicament à partir des profils moléculaires de leurs tumeurs.

Un autre défi est qu'il existe de nombreux types de cancer pour lesquels aucun médicament ciblé efficace n'a encore été trouvé. Le repositionnement de médicaments (RM) est une stratégie visant à accélérer la découverte de nouveaux médicaments. Combiné au criblage phénotypique, le RM peut identifier des médicaments candidats innovants contre le cancer tout en découvrant de nouvelles cibles. Cependant, un modèle capable de prédire quels médicaments seront efficaces sur une tumeur donnée est requis en raison du coût et du temps prohibitifs des stratégies de RM par des tests précliniques et cliniques. De plus, des outils pour identifier les cibles moléculaires des hits phénotypiques sont nécessaires pour comprendre leur efficacité et leurs effets secondaires ainsi que pour prédire de nouvelles combinaisons de médicaments pour retarder l'émergence d'une résistance acquise.

Ce projet multidisciplinaire fournira de nouvelles méthodes de découverte de biomarqueurs et de RD sur la base données de phénotypage à grande échelle. Les données exploitées seront soit des données récentes disponibles publiquement à la communauté scientifique ou des données du CRCM. Bien que ces méthodes soient applicables à tout type de cancer, ce projet pilote mettra l'accent sur l'identification des médicaments candidats et des biomarqueurs associés pour les cancers du sang et du pancréas à mauvais pronostic. Comme les méthodes développées pour la découverte de biomarqueurs précliniques présentent les mêmes défis méthodologiques que ceux des biomarqueurs cliniques, ce projet contribuera à la mise en place d’un programme de médecine personnalisée.

Pedro BALLESTER (Centre de recherche en cancérologie de Marseille)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

CRCM Centre de recherche en cancérologie de Marseille

Aide de l'ANR 129 999 euros
Début et durée du projet scientifique : octobre 2017 - 24 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.