Séparation spatiale de sources par apprentissage profond génératif – DEESSE
La prise de son mains-libres est utilisée par de nombreux services vocaux comme la téléphonie, la visiophonie ou les assistants vocaux. Elle souffre cependant de perturbations liées à l’environnement sonore : réverbération, bruits, écho.
Pour réduire celles-ci, des traitements, comme la séparation de sources, peuvent être appliqués pour nettoyer la parole. Ceux-ci peuvent bénéficier grandement d'une captation multicanal comme fournie pour une antenne de microphones.
L'objectif du projet DEESSE est de développer de telles approches dans des conditions réelles. Parce que les approches neuronales classiques souffrent de dégradations audibles face à ces conditions réelles (du fait de données d'apprentissage synthétiques trop simplistes, et de la faible capacité de généralisation de l'apprentissage discriminatif supervisé), le projet DEESSE propose un changement de paradigme pour la séparation de sources audio multicanale, en abordant la problématique par le biais de l’IA générative. Cette approche par génération doit également permettre de sortir de l’éternel compromis « réduction des interférences vs. artefacts » imposé aux méthodes discriminatives supervisées.
Dans ce projet, une attention particulière sera portée sur l’apprentissage semi-supervisé pour tirer parti d’enregistrements réels que nous collecterons tout au long du projet, enregistrements partiellement labellisés.
Le projet DEESSE se focalisera sur l'utilisation du format Ambisonique permettant la représentation 3D d’une scène sonore. Enfin, en tant que PRC – Entreprise, le projet développera des prototypes temps-réel en vue du déploiement dans la chaîne de traitement du partenaire industriel.
Coordination du projet
Alexandre Guérin (ORANGE)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
ORANGE
IETR Institut d'Electronique et des Technologies du numéRique (IETR)
GIPSA-lab Grenoble Images Parole Signal Automatique
LTCI Telecom ParisTech
Aide de l'ANR 635 335 euros
Début et durée du projet scientifique :
décembre 2024
- 42 Mois