BLANC - Programme blanc 2006

Adaptation, tests multiples, ranking et applications – TAMIS

Résumé de soumission

Le projet TAMIS rassemble des membres de l'équipe de Statistique du Laboratoire de Probabilités et Modèles Aléatoires (UMR 7599 CNRS, Paris 6 et 7), de l'équipe BioInformatique de la Fondation Curie, de l'équipe Met@Risk de l'INRA et des chercheurs de la Société Pertinence. Ces groupes ont déjà eu l'occasion de travailler ensemble (voir Publications), ils partagent un intérêt pour les statistiques mathématiques et leurs applications. Le projet TAMIS est organisé autour de trois questions (liées) de statistique inférentielle: le problème des test multiples, celui du ranking et l'adaptation à la « sparsité » en estimation. Ces trois sujets sont au devant de la scène en statistique ou en « théorie statistique de l'apprentissage » depuis moins d'une dizaine d'années. La question de l'adaptation à la sparsité est centrale dans les problèmes d'estimation par ondelettes, autant en théorie qu'en pratique. Elle est finement étudiée dans le modèle des suites gaussiennes. L'élaboration de bons espaces fonctionnels capturant la notion de sparsité a connu un grand développement dans le cadre de la théorie de l'approximation constructive. L'adaptation à la sparsité est aussi maintenant perçue comme un problème de tests multiples. Elle constitue un domaine où se confrontent les techniques dites Bayésiennes empiriques, de seuillage, de contrôle fréquentiste du taux de fausses alarmes ... Le projet TAMIS vise à poursuivre cette exploration et à lier ces questions d'adaptation à des problèmes pratiques issues de la génomique, du contrôle du risque alimentaire, et de l'optimisation de procédés industriels. Si les problèmes de sélection de variables, de modèles, posés par l'optimisation de procédés, où le contrôle du risque alimentaire appartiennent à la même famille que l'adaptation à la sparsité par tradition (ils relèvent tous du fléau de la dimension), la relation aux problèmes de tests multiples est plus récente (même si certaines méthodes de sélection de modèle comme le « pre-testing » se présentent comme des méthodes pour conduire des tests multiples). La problématique des tests multiples (comment utiliser les p-values quand on effectue simultanément beaucoup de tests, qu'on désire contenir le taux de fausses alarmes/découvertes tout en conservant un peu de puissance ?) est devenue populaire parce qu'elle se pose naturellement en fouilles de données (analyse post-hoc) ou en analyse des puces à ADN. Nous souhaitons pousser l'étude des techniques de contrôle du taux de fausses alarmes pour elles-mêmes, dans leur relation à l'adaptation à la sparsité et enfin pour étudier une question importante en oncologie: l'analyse des corrélations entre altérations structurelles du génome et expression différentielle dans certaines tumeurs. L'abord de ces questions n'est possible qu'au travers de la collaboration entre un laboratoire de statistique fondamentale et une équipe de BioInformatique disposant de la compétence biologique et d'un accès privilégié aux données biologiques et cliniques. Face à un problème de tests multiples, on peut aussi se poser un problème de « ranking » : comment ranger les données dans un ordre compatible avec la probabilité conditionnelle de ne pas satisfaire l'hypothèse nulle (en général inconnue). Cette question constitue une généralisation des questions traditionnellement posées en théorie statistique de l'apprentissage. Elle trouve des applications en optimisation des procédés et en contrôle du risque alimentaire. Les membres du projet TAMIS souhaitent poursuivre leur travail sur le « ranking », l'appliquer sur les données accessibles dans le cadre du projet et aborder le problème de « l'apprentissage des courbes ROC ». Sur ces trois thématiques, les membres du projets TAMIS travaillent avec des objectifs de statisticiens théoriciens, ils cherchent à montrer l'existence de procédures possédant de bonnes propriétés (vitesse de convergence majorée, comparaison à des bornes inférieures...). Mais ils travaillent aussi avec de

Université

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

INSTITUT CURIE - SECTION DE RECHERCHE

Aide de l'ANR 190 000 euros
Début et durée du projet scientifique : - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.