Apprentissage de structures hiérarchiques pour l’analyse computationnelle de scènes auditives – Houle
Apprentissage non supervisé hiéarchique et basé objet
Ce projet étudie un nouveau formalisme d'apprentissage hiérarchique pour l'analyse de scènes auditives.
Approcher l'analyse de scènes auditives de manière non supervisée
Les points bloquant les methodes actuelles<br />sont : (1) ne pouvant faire d'hypothèse sur la nature des objets<br />traités, on ne peut les modéliser a priori, (2) les objets mélangés<br />dans la scène ne peuvent être observés en isolation, (3) leur<br />structure est gouvernée par de nombreuses relations dont la priorité<br />est difficile à établir.<br /><br />Les caractéristiques dont nous tirons parti pour notre approche sont,<br />l'organisation hiérarchique des scènes audio (atomes rassemblés en<br />objets qui sont des instances de classes comme «La4 de piano«,<br />elle-même un exemple de «Note de piano«), et la redondance présente à tous les niveaux de cette hiérarchie. Cette redondance nous permet d'identifier des motifs récurrents sur lesquels fonder une représentation riche et robuste.
À cette nouvelle approche de la représentation de scènes audio
correspond un algorithme d'apprentissage non supervisé spécialement
conçu pour traiter ces donneés. Le système est structuré en deux
composants : le Regroupement Multi-Niveaux (RMN) opère la
structuration des données, tandis que le «Superviseur« (module
d'adaptation réflexive) incarne l'aspect «apprentissage« en optimisant
à la volée le fonctionnement de RMN en référence à une mémoire
d'executions passées.
RMN est constitué de (1) une série de modules de classification de
type k-means «empilés« pour produire en partant des atomes des
ensembles de classes d'abstraction croissante, et (2) un mécanisme de
rétroaction par lequel la connaissance acquise aux hauts niveaux guide
la classification des plus bas niveaux. ainsi, la redondance de haut
niveau est mise à profit pour rassembler les atomes en structures
intelligibles.
RMN traite des données représentées sous une forme différentielle, par
un ensemble de matrices (kernels) reflétant chacune les connections
existant entre atomes selon un type de relation prédéfini. Chaque
niveau du RMN considère un kernel spécifique, obtenu par moyenne
pondérée des matrices de chaque relation. Le choix du poids de chaque kernel conditionne la nature des objets produits par la classification à ce niveau.
A remplir
A remplir
A remplir
Nous proposons des techniques originales d'apprentissage non supervisé
pour résoudre CASA (Computational Auditory Scene Analysis), tâche
consistant à identifier et décrire les objets sonores constituant une
scène. CASA est un domaine très actif du traitement du son ayant de
nombreuses applications. Les points bloquant les methodes actuelles
sont : (1) ne pouvant faire d'hypothèse sur la nature des objets
traités, on ne peut les modéliser a priori, (2) les objets mélangés
dans la scène ne peuvent être observés en isolation, (3) leur
structure est gouvernée par de nombreuses relations dont la priorité
est difficile à établir.
Les caractéristiques dont nous tirons parti pour notre approche sont,
l'organisation hiérarchique des scènes audio (atomes rassemblés en
objets qui sont des instances de classes comme "La4 de piano",
elle-même un exemple de "Note de piano"), et la redondance présente à
tous les niveaux de cette hiérarchie. Cette redondance nous permet d'identifier
des motifs récurrents sur lesquels fonder une représentation riche et
robuste.
À cette nouvelle approche de la représentation de scènes audio
correspond un algorithme d'apprentissage non supervisé spécialement
conçu pour traiter ces donneés. Le système est structuré en deux
composants : le Regroupement Multi-Niveaux (RMN) opère la
structuration des données, tandis que le "Superviseur" (module
d'adaptation réflexive) incarne l'aspect "apprentissage" en optimisant
à la volée le fonctionnement de RMN en référence à une mémoire
d'executions passées.
RMN est constitué de (1) une série de modules de classification de
type k-means "empilés" pour produire en partant des atomes des
ensembles de classes d'abstraction croissante, et (2) un mécanisme de
rétroaction par lequel la connaissance acquise aux hauts niveaux guide
la classification des plus bas niveaux. ainsi, la redondance de haut
niveau est mise à profit pour rassembler les atomes en structures
intelligibles.
RMN traite des données représentées sous une forme différentielle, par
un ensemble de matrices (kernels) reflétant chacune les connections
existant entre atomes selon un type de relation prédéfini. Chaque
niveau du RMN considère un kernel spécifique, obtenu par moyenne
pondérée des matrices de chaque relation. Le choix du poids de chaque
kernel conditionne la nature des objets produits par la classification
à ce niveau.
Le rôle du Superviseur est d'ajuster automatiquement ces poids pour
optimiser la classification, en se basant (1) sur les propriétés des
données, en considérant des métriques de cohérence de classes, (2) sur
la mémoire d'exécutions précédentes sur d'autres scènes
(reconnaissance de configurations et objets récurrents). Les
structures désirées apparaissent ainsi de manière spontanée sans
intervention externe.
Les objets et classes produits seront décrits par leur structure
interne, grâce aux kernels représentant les relations entre leurs
atomes, indépendamment de leur interaction avec l'extérieur. Le
bénéfice espéré de cela est une plus grande expressivité, et une
comparaison entre objets facilitée par la moindre dépendance aux
variations incidentelles.
L'originalité de notre proposition tient dans son détachement des
approches traditionnelles à CASA, en commençant par le paradigme de
représentation des scènes et objets. L'innovation est principalement
présente dans les méthodes d'apprentissage non supervisé que nous
allons développer, dont les applications dépassent largement le cadre
de CASA.
L'évaluation du système sera conduite sur les suites de test standard
de CASA, ainsi que par son application à deux problèmes concrets:
identification des types de matériaux dans un scène audio contrainte,
et identification des motifs de percussion dans une scène musicale.
Coordination du projet
Mathieu LAGRANGE (INSTITUT DE RECHERCHE ET DE COORDINATION ACOUSTIQUE-MUSIQUE ( IRCAM )) – mathieu.lagrange@ls2n.fr
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
IRCAM STMS (UMR 9912) INSTITUT DE RECHERCHE ET DE COORDINATION ACOUSTIQUE-MUSIQUE ( IRCAM )
Aide de l'ANR 222 000 euros
Début et durée du projet scientifique :
septembre 2011
- 36 Mois