Découverte peu et non-supervisée d’unités audio à l’aide d’apprentissage profond – LUDAU
LUDAU est un projet qui relève du domaine de l’apprentissage automatique appliqué, visant à explorer des situations d’apprentissage peu supervisé sur de grands corpus de parole et de bruits environnementaux, en s’appuyant entre autres sur le paradigme du deep learning et les réseaux de neurones profonds.
Deux scénarios sont envisagés :
1) un scénario légèrement supervisé, dans lequel des étiquettes manuelles « grossières » ou haut-niveau sont disponibles. L’annotation haut niveau caractérise un enregistrement de manière globale, de sorte que leur utilisation limite considérablement le recours au travail d’annotation manuelle coûteux et fastidieux. Elle indique par exemple la présence ou l’absence d’un concept cible.
2) Un scénario non-supervisé lorsque seuls des enregistrements audio bruts sont disponibles.
L’objectif principal de LUDAU est de proposer des méthodes automatiques pour minimiser le besoin d'effort d'étiquetage manuel. Pour tenter de l’atteindre, nous nous proposons de :
1) trouver de nouvelles méthodes pour extraire des représentations caractéristiques qui facilitent la discrimination entre des unités ou catégories audio ;
2) segmenter et regrouper le signal audio en unités utiles et signifiantes.
Nous envisageons de combiner des approches top-down : les informations de haut niveau fournies par des étiquettes haut-niveau sont utiles pour découvrir des unités audio de bas niveau ; ainsi que des approches bottom-up : la détection d’unités sonores élémentaires reposera sur l’extraction de représentations distribuées bas niveau issues de couches de DNNs.
Pour découvrir des unités sonores utiles, diverses techniques de regroupement seront explorées, en les appliquant sur des cartes d’activation extraites de réseaux de neurones profonds. Nous mettrons l'accent sur des méthodes qui estiment le nombre clusters automatiquement comme les mélanges Gaussien avec processus de Dirichlet. Nous exploiterons de plus la détection de saillance, qui permet d’identifier les segments importants dans le signal donné en entrée au modèle et qui justifie a posteriori les prédictions faites par un modèle. Une chaîne de traitement fondée sur ces étapes sera mise en place pour annoter automatiquement des enregistrements sonores en pseudo-unités localisées en temps et potentiellement en fréquence.
La découverte d'unités de parole, en particulier au niveau phonémique, sera l’application principale du projet. Nous chercherons à valider la généralisation de nos approches à d'autres tâches d’analyse sonore, à savoir la détection d'événements sonores dans des enregistrements de terrain : détection de bruits environnementaux et détection de chants d'oiseaux pour des applications écologiques.
Coordination du projet
Pellegrini THOMAS (Institut de Recherche en Informatique de Toulouse)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
IRIT Institut de Recherche en Informatique de Toulouse
Aide de l'ANR 222 366 euros
Début et durée du projet scientifique :
- 42 Mois