Segmentation et regroupement de locuteurs via un modèle robuste unifié audio spatial et multimodal – SAROUMANE
La segmentation et regroupement en locuteurs (SRL) vise à répondre à la question : "qui parle et quand ?". Il s'agit d'un problème difficile à résoudre en raison de la complexité des scénarios (environnement de propagation, grand nombre de locuteurs et leurs mobilités...). En présence d'au moins deux locuteurs (réunion ...), la SRL est essentiel pour le bon fonctionnement d’algorithmes de traitement de la parole. Au cours des dix dernières années, la SRL s'est concentré sur des architectures de réseaux neuronaux profonds (RNP) (bout en bout, autoencodeur ...) afin de représenter ce problème non linéaire. Une architecture RNP classique pour la SRL est l'autoencodeur qui prend en compte deux réseaux neuronaux : l'encodeur qui plonge les données d’entrées dans un espace dit latent et le décodeur transformant les variables latentes en données supposées être identiques à celles d'entrée. Les appareils numériques actuels comme les smartphones sont composés de réseaux de plusieurs microphones. C’est pourquoi des articles récents exploitent des données audios multicanales en entrée pour la SRL. Les SRL susmentionnées manquent cependant d'interprétabilité malgré une bonne performance. L'adaptabilité de ces algorithmes dans le cas de scénarios non inclus dans la base d’apprentissage peut en effet devenir faible. Les verrous scientifiques sont alors de 1) proposer une architecture RNP robuste et interprétable qui prend en compte 2) une entrée audio multicanale et 3) d'autres données multimodales. Un renforcement de l’interprétabilité est par exemple l'autoencodeur variationnel (AEV) pour l'autoencodeur. Le AEV suppose un modèle probabiliste sur les données d'entrée qui conduit à des techniques variationnelles pour l'estimation des paramètres. Le projet SAROUMANE vise à développer de nouvelles méthodologies pour les SRL en combinant des modèles probabilistes unifiés à queue lourde sur des signaux audio multicanaux et des données multimodales avec une architecture de AEV.
Coordination du projet
Mathieu Fontaine (Telecom ParisTech)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
LTCI Telecom ParisTech
Aide de l'ANR 267 836 euros
Début et durée du projet scientifique :
mars 2023
- 36 Mois