Inférence rapide pour les Processus Gaussiens dans des Espaces Structurés – GenGP
Les Processus Gaussiens (PG) sont un des outils les plus populaires en statistique et apprentissage artificiel. Ils sont à la base d'une large gamme de techniques utilisées en lissage de données, pour la classification non-linéaire ou pour les représentations en variables latentes.
Le rôle des PG en statistiques bayésiennes et en apprentissage artificiel est d'exprimer des a priori sur des espaces de fonctions. Dans le cas le plus courant, les données sont des mesures bruitées d'une fonction sous-jacente f(x). Plutôt que de choisir une forme paramétrique pour f(x), il est possible de rester non-paramétrique, mais il est nécessaire néanmoins d'exprimer certaines hypothèses sur f (sinon quoi la fonction f la plus probable interpole exactement les points de mesures, et nous n'apprendrons rien). Dans un cadre bayésien on peut exprimer des hypothèses sur f à travers une distribution a priori, qui porte ici sur une classe de fonctions. Une hypothèse typique est que la fonction f est régulière, et cette hypothèse est très facilement exprimée par un PG. Une fois la loi a priori définie, l'inférence est basée sur la distribution a posteriori, elle même une distribution sur un espace fonctionnel.
La théorie des PG est très élégante, mais son application pratique nécessite des raccourcis numériques. Les PG souffrent d'un problème bien connu dit du "grand-n", qui rend les méthodes inapplicables lorsque la quantité de données devient grande.
Si les données sont dans le plan Euclidien, plusieurs techniques d'approximation sont disponibles. La plus efficace est sans doute celle développée par Lindgren et al. (2011), qui se base sur une représentation de PG comme solution d'une équation stochastique aux dérivées partielles. Cette EDP peut être résolue grâce à la méthode des Elements Finis, ce qui permet d'utiliser des opérations matricielles éparses plutôt que pleines, et donc de réduire les coûts calculatoires de manière considérable.
Cependant, dans de nombreux cas, les données ne sont pas dans le plan Euclidien, mais dans des espaces plus compliqués, comme celui des chaînes de caractères, des arbres, des graphes, ou des matrices. En neuroscience par exemple, la connectivité fonctionnelle (co-activations entre aires du cerveau) est utilisée pour diagnostiquer certaines maladies, et il est important de développer des méthodes de classification adaptées à ces observés: ici, il s'agit de définir des PG sur un espace de graphes.
En l'état actuel des choses, les PG sont très utiles pour des petits jeux de données, ou pour des jeux de données médians dans le cas Euclidien. Dans le cas non-Euclidien, les seules méthodes d'approximation connues sont basées sur des hypothèses de rang bas, dont l'efficacité est variable et qui disposent de peu de garanties théoriques. Notre but est d'étendre les méthodes numériques développées par Lindgren et al. au cas des espaces structurés. Ce projet revêt d'autant plus d'intérêt que les méthodes de PG "profonds" sont actuellement en développement (Damianou et al., 2013), et qu'elles pourraient être de performance comparable ou supérieure aux réseaux de neurones qui dominent actuellement plusieurs champs de l'apprentissage artificiel.
L'objectif du projet est donc de fournir des méthodes numériques rapides pour des PG dans des espaces structurés. Nous étendrons la représentation en EDP de Lindgren et al. à une représentation plus souple de type ARMA. Cette représentation utilise des polynômes dans l'opérateur de Laplace, et se généralise immédiatement à des espaces structurés par le passage à des graphes de voisinage et à l'opérateur Laplacien discret. Nous utiliserons des outils venus de l'algèbre linéaire numérique, du traitement du signal, et de l'optimisation convexe. Nous appliquerons nos méthodes à des jeux de données réels issus des neurosciences.
Coordination du projet
Simon Barthelmé (Grenoble Images Paroles Signal Automatique)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
GIPSA-Lab Grenoble Images Paroles Signal Automatique
Aide de l'ANR 129 142 euros
Début et durée du projet scientifique :
septembre 2016
- 36 Mois