Grands modèles tensoriels pour l'analyse de données, l'apprentissage automatique et le traitement du signal – LATENT
De nombreux problèmes dans divers domaines, notamment en science des données, en apprentissage automatique et en traitement du signal, peuvent être abordés à l'aide d'un modèle tensoriel de faible rang. En général, cela exige l'estimation des paramètres d'un tel modèle à partir d'un tenseur de données bruité, que l'on suppose contenir un signal de faible rang portant l'information d'intérêt. Bien que plusieurs algorithmes existants parviennent souvent à accomplir cette tâche notoirement difficile de manière satisfaisante, il est difficile d'anticiper ou de garantir leurs performances réelles en pratique.
Des avancées significatives ont été réalisées ces dernières années en abordant ce problème d’estimation dans le cadre du régime où les dimensions du tenseur deviennent grandes, ce qui est pertinent pour un grand nombre d'applications actuelles. En particulier, cette approche a permis d'accéder aux performances asymptotiques exactes de plusieurs algorithmes visant à estimer un signal de rang un "noyé" dans un tenseur bruité. Cependant, à ce jour, les résultats existants se limitent pour la plupart au cas de rang un, à quelques exceptions près qui soit reposent sur des hypothèses trop restrictives, soit ne couvrent pas plusieurs algorithmes d'intérêt pratique, soit n'ont pas encore atteint leur pleine maturité.
Le projet LATENT poursuit deux objectifs ambitieux : (i) caractériser la performance et les limitations de plusieurs algorithmes d'estimation de modèles tensoriels d'intérêt pratique, au-delà du cas de rang un ; (ii) proposer de nouveaux algorithmes améliorés avec des garanties de performance, en s'appuyant sur les conclusions tirées de l'objectif (i).
Plus précisément, nous nous concentrerons sur trois modèles tensoriels largement utilisés : la décomposition canonique polyadique (CPD), la décomposition tensorielle en blocs (BTD) et la décomposition de Tucker (TD). Grâce à l'unicité de leurs paramètres sous des conditions relativement faibles, les modèles CPD et BTD sont couramment employés pour l’extraction d'information, puisqu'ils permettent de déceler les paramètres qui caractérisent les causes sous-jacentes aux observations dans plusieurs applications. En revanche, le modèle TD est le plus souvent utilisé pour réduire la dimensionnalité d'un tenseur de données, en particulier avant d'estimer une décomposition CPD ou BTD de faible rang à partir de celui-ci, afin de réduire la taille du problème (et donc son coût).
Pour le modèle TD, nous caractériserons les performances asymptotiques exactes atteintes par plusieurs estimateurs spectraux pratiques, y compris des estimateurs existants et de nouveaux estimateurs développés par LATENT, ainsi que celles atteintes par l'estimateur du maximum de vraisemblance (idéalisé) sous bruit gaussien, à titre de référence. Concernant les modèles CPD et BTD, le projet LATENT se focalisera sur deux classes d'estimateurs, à savoir les méthodes algébriques telles que la diagonalisation simultanée, et les schémas de déflation basés sur la résolution d'une suite de problèmes d'approximation de rang un. Enfin, nos résultats seront appliqués à deux exemples d'application en apprentissage automatique et en traitement du signal : respectivement, l'estimation basée sur CPD de modèles de mélanges gaussiens à partir d'un tenseurs de moments empiriques, et la séparation basée sur BTD de signaux sources à partir d'un enregistrement électrocardiographique.
Les résultats du projet LATENT devraient influencer de manière significative et pérenne les activités des praticiens dans des domaines appliqués tels que l’apprentissage automatique et le traitement du signal. Plus précisément, ils constitueront une avancée majeure vers une utilisation mieux éclairée des méthodes tensorielles dotées de garanties et de prédictions de performance utiles pour les applications.
Coordination du projet
José Henrique de Morais Goulart (INSTITUT NATIONAL POLYTECHNIQUE TOULOUSE)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
IRIT INSTITUT NATIONAL POLYTECHNIQUE TOULOUSE
Aide de l'ANR 268 200 euros
Début et durée du projet scientifique :
décembre 2025
- 48 Mois