CE23 - Intelligence artificielle et science des données 2023

Modèles génératifs et d'inférence par apprentissage profond pour le rehaussement de la parole faiblement supervisé – DEGREASE

Résumé de soumission

Les interactions humaines à distance et les interactions homme-machine nécessitent des technologies de traitement de la parole fiables pouvant fonctionner dans des conditions acoustiques réelles non contraintes. Les enregistrements de parole sont inévitablement contaminés par des sources sonores interférentes et par la présence de réverbération. Que ce soit pour l'écoute humaine ou artificielle, les algorithmes de rehaussement de la parole sont alors nécessaires pour améliorer la qualité et l'intelligibilité de la parole. La grande majorité des algorithmes actuels reposent sur l'utilisation de réseaux de neurones profonds entraînés de façon supervisée, sur une base de données de signaux de parole bruitée étiquetés avec les signaux de parole propre associés. Etant donnée l'impossibilité d'acquérir de telles données dans des conditions réelles, celles-ci sont générées artificiellement en créant des mélanges synthétiques de parole isolée et de bruit. Les performances des algorithmes supervisés chutent néanmoins drastiquement lorsque ces données synthétiques diffèrent des conditions réelles d’utilisation. La tendance actuelle consiste alors à créer des jeu de données synthétiques toujours plus grands, dans l'espoir irréaliste de couvrir l'ensemble des conditions acoustiques possibles. A l'inverse, le projet DEGREASE propose un cadre d’apprentissage faiblement supervisé dans le but de développer des algorithmes plus flexibles, robustes et écologiquement valides, pouvant être entraînés sur des données réelles non annotées et qui soient capables de s'adapter à des conditions acoustiques nouvelles. A l'interface du traitement du signal audio, de la modélisation graphique probabiliste et de l'apprentissage profond, nous proposons un cadre méthodologique d’apprentissage profond génératif pour les signaux de parole multi-microphone, qui combiné à des techniques d’inférence variationnelle amortie permettra d’entraîner efficacement les modèles de façon faiblement supervisée.

Simon Leglaive (Institut d'Electronique et des Technologies du numéRique (IETR))

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

EMOBOT
Universität Hamburg
GIPSA-lab Grenoble Images Parole Signal Automatique
IETR Institut d'Electronique et des Technologies du numéRique (IETR)
LTCI Laboratoire Traitement et Communication de l'Information
Centre Inria de l’Université Grenoble Alpes

Aide de l'ANR 274 151 euros
Début et durée du projet scientifique : mars 2024 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.