Flots de Gradients de Wasserstein pour l'Optimisation et l'Echantillonnage: propriétés non asymptotiques dans le cas non log-concave – WOS
Un problème important en apprentissage et en statistique computationnelle est l'échantillonnage selon une distribution cible inconnue. En inférence bayésienne par exemple, cette dernière correspond à la distribution a posteriori des paramètres, qui n'est connue qu’à une constante de normalisation près. En apprentissage profond, l'optimisation des paramètres d'un grand réseau de neurones peut être vue comme la recherche d'une distribution optimale sur les paramètres. Ce problème d'échantillonnage peut être considéré comme l'optimisation d'une dissimilarité (une perte), sur l'espace des mesures de probabilité. Comme en optimisation, une idée naturelle est de partir d'une distribution initiale et d'appliquer un schéma de descente. En particulier, on peut tirer parti de la géométrie du transport optimal et considérer les flots de gradient de Wasserstein, qui trouvent un chemin continu de distributions de probabilité diminuant cette perte. Différents algorithmes d'approximation de la cible résultent du choix d'une perte, d'une discrétisation temporelle et spatiale; et mènent en pratique à la simulation de systèmes de particules en interaction. Ce point de vue de l'optimisation a récemment conduit à de nouveaux algorithmes pour l'échantillonnage, mais a également amélioré l'analyse d’algorithmes déjà connus en inférence bayésienne ou apprentissage profond. Cependant, de nombreux aspects théoriques et pratiques de ces algorithmes restent flous. Premièrement, leurs propriétés non asymptotiques quantifiant la qualité de la distribution approximative à un temps et pour un nombre de particules finis. Deuxièmement, leur convergence dans le cas où la cible n'est pas log-concave (analogue à l'optimisation non-convexe). Motivé en particulier par les applications mentionnées, le but de ce projet est d'étudier ces questions, en s'appuyant sur des techniques récentes issues de la littérature sur l'optimisation, le transport optimal et les équations aux dérivées partielles.
Coordination du projet
Anna KORBA (Groupe des écoles nationales d'économie et statistique)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
CREST Groupe des écoles nationales d'économie et statistique
Aide de l'ANR 202 270 euros
Début et durée du projet scientifique :
March 2023
- 36 Mois