Méthodes distribuées et parallèles de Monte-Carlo par chaînes de Markov pour l'Inférence Bayésienne de modèles à factorisation de tenseurs – FBIMATRIX
Les méthodes de factorisation de matrices et de tenseurs constituent un cadre général pour un large éventail de techniques en apprentissage automatique et en
traitement du signal, fournissant à la fois des modèles statistiques pertinents ainsi que des procédures de calcul efficaces pour l'implémentation pratique des
algorithmes. Jusqu'à présent, les approches algébriques ou d'optimisation ont prévalu pour le calcul de ces factorisations. A l'opposé de cette approche dominante, le projet FBIMATRIX vise à développer des méthodes distribuées et parallèles de type Monte-Carlo par chaînes de Markov (MCMC) pour l'Inférence
Bayésienne de modèles de factorisation. Les processus aléatoires au cœur des méthodes de Monte Carlo s'avèrent en effet particulièrement utiles, non seulement pour l'inférence statistique, notamment pour la sélection et l'agrégation de modèles, mais aussi pour préserver le caractère éventuellement confidentiel des données ainsi que pour obtenir une meilleure précision dans le calcul des solutions approchées du problème de factorisation.
Les méthodes MCMC sont généralement perçues comme étant algorithmiquement complexes et peu pratiques. Dans FBIMATRIX, nous souhaitons exploiter le calcul parallèle et distribué pour améliorer l'état de l'art en termes d'évolutivité et d'efficacité statistique mais aussi pour fortement réduire la complexité (de calcul et de communication). Nous utiliserons les MCMC comme un outil générique, en raison de leur nature intrinsèquement aléatoire, pour l'inférence et la sélection de modèles dans des données distribuées, éventuellement en complément de méthodes d'optimisation, et pour des données à forte volumétrie.
Le projet portera plus précisément sur la sélection et l'agrégation de modèles dans un cadre Bayésien, pour les modèles de factorisation de matrices et de
tenseurs, en utilisant les progrès récents des méthodes de Monte Carlo hybrides qui simulent une dynamique stochastique augmentée. En tant que tel, nous visons à développer des algorithmes plus rapides pour des problèmes de calcul connus pour être difficiles, comme l'estimation de probabilités marginales. Enfin,
nous illustrerons l'utilité pratique des méthodes parallèles et distribués développées dans le projet sur des applications emblématiques de deux domaines : la séparation de sources audio et la prédiction de liens manquants pour la recommandation.
Coordination du projet
Umut Simsekli (INSTITUT Mines-Télécom)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
LTCI - TELECOM ParisTech INSTITUT Mines-Télécom
Bogazici University Bogazici
Sabanci University Sabanci
Aide de l'ANR 184 704 euros
Début et durée du projet scientifique :
octobre 2016
- 36 Mois