Bayésien non-paramétrique, quantification de l'incertitude et structures aléatoires – BASICS
Dans la société contemporaine, le statisticien reçoit quotidiennement des données et questions provenant de champs aussi variés que la génomique, l'écologie, les sciences sociales ou l'astrophysique. Ces données sont souvent hétérogènes et de grande dimension. Dans ce contexte, la statistique mathématique a un rôle important à jouer. Des procédures adaptées à ces nouveaux types de données doivent non seulement être proposées, mais également être analysées, validées et comparées.
Les méthodes bayésiennes non-paramétriques occupent un rôle central en statistique appliquée et en apprentissage. Une des raisons à ceci est leur flexibilité : le statisticien attribue une loi de probabilité, dite loi a priori, aux paramètres inconnus du modèle et cette loi est mise à jour à l’aide des données par une opération de conditionnement. Ce faisant, le statisticien peut tirer parti de la structure des données dans sa construction de la loi a priori. Une autre raison du succès de ces méthodes est le développement de nombreux algorithmes depuis une vingtaine d’années pour le calcul efficace des lois a posteriori, notamment plus récemment dans des contextes de grande dimension. La validation de ces méthodes par des résultats mathématiques de vitesses de convergence et d’optimalité est un enjeu clé.
Motivées par de nombreuses applications pratiques, deux classes de modèles statistiques connaissent par ailleurs un développement spectaculaire récent : les modèles dits de grande dimension, et les modèles de graphes aléatoires. Dans les modèles de grande dimension, le nombre de paramètres dépasse typiquement le nombre d’observations. Il est cependant souvent possible d’estimer dans ces modèles en utilisant une structure parcimonieuse sous-jacente. Ces idées sont à la base des procédures de tests multiples, qui jouent un rôle fondamental pour les applications, notamment en génomique pour l’interprétation des données de puces à ADN. Les modèles de graphes aléatoires sont également très développés, sous l’impulsion des nombreuses applications pratiques des réseaux, comme l’étude de réseaux trophiques en écologie ou celle de la structure des réseaux sociaux ou du web. Le modèle à blocs stochastiques fait ainsi partie des modèles les plus rencontrés dans ce domaine.
Le projet ANR BASICS entend proposer de nouvelles méthodes et de nouvelles analyses pour ces familles de modèles centraux en statistique moderne, en s'appuyant en particulier sur la flexibilité des méthodes bayésiennes non-paramétriques. Ces dernières sont déjà très utilisées en pratique dans les récents algorithmes sur les modèles de grande dimension, en particulier en tests multiples où la calibration peut être réalisée efficacement par des approches bayésiennes empiriques. Cependant, l’analyse de la convergence et de l’optimalité de ces méthodes a été peu explorée jusqu’à présent. L’enjeu est pourtant de taille, puisqu’il s’agit de déterminer quelles lois a priori mèneront à une estimation optimale, et comment calibrer les paramètres de ces lois pour atteindre cet objectif. Le projet portera une attention particulière à l'étude de structures aléatoires : d’une part celles multi-échelles intervenant en particulier dans l’analyse en ondelettes des signaux, pour laquelle des lois a priori avec une structure arborescente sont particulièrement naturelles; d’autre part les graphes aléatoires, qui seront analysés par des méthodes bayésiennes et non-bayésiennes. Enfin, une idée clé du programme de recherche du projet ANR BASICS est celle de la quantification de l’incertitude. En effet, l’obtention de régions de confiance est un atout fondamental pour l’interprétation des résultats statistiques. Les méthodes bayésiennes proposent naturellement une quantification de l’incertitude par l’intermédiaire des régions dite de crédibilité. Le projet entend donner des conditions qui garantissent que ces régions de crédibilité quantifient effectivement le niveau de confiance.
Coordinateur du projet
Monsieur Ismaël CASTILLO (Laboratoire de probabilités et modèles aléatoires)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
LPMA Laboratoire de probabilités et modèles aléatoires
Aide de l'ANR 66 960 euros
Début et durée du projet scientifique :
octobre 2017
- 48 Mois