Amélioration de la parole audiovisuelle basée sur l'apprentissage profond, robuste et efficace – REAVISE

Résumé de soumission

L'amélioration de la parole est un problème fondamental dans le traitement du signal qui vise à améliorer la qualité et l'intelligibilité d'un signal de parole enregistré dans un environnement bruyant. Ceci est d'une importance pratique primordiale, par ex. pour les systèmes de reconnaissance automatique de la parole et les appareils auditifs. Alors que la perception de la parole humaine implique à la fois des modalités audio et visuelles (mouvements des lèvres), la majorité des algorithmes d'amélioration de la parole exploitent uniquement la modalité audio. L'amélioration de la parole audiovisuelle (AVSE) vise à incorporer les informations complémentaires fournies par la modalité visuelle, qui est moins affectée par le bruit acoustique, afin d'améliorer encore les performances de l'amélioration de la parole, en particulier dans les environnements acoustiques difficiles. Les méthodes AVSE se répartissent en deux catégories : supervisées ou non supervisées, selon qu'un corpus parallèle de parole audiovisuelle propre et bruitée est utilisé pour l'apprentissage ou non.

Les approches AVSE supervisées impliquent une formation sensible au bruit, avec diverses instances de bruit acoustique et visuel pour bien généraliser. Ainsi, ils conduisent à des réseaux complexes avec une quantité énorme de paramètres. Il leur manque également un moyen systématique de gérer les bruits acoustiques et visuels. D'autre part, les approches AVSE non supervisées sont basées sur un entraînement indépendant du bruit, conduisant à des modèles plus compacts, avec un plus grand potentiel de généralisation et un apprentissage robuste. Néanmoins, contrairement aux AVSE supervisées, elles ont été nettement moins explorées.

Dans ce contexte, l'objectif général de REAVISE est de faire un bond vers le développement d'un cadre AVSE unifié qui récupère un signal vocal intelligible, de haute qualité avec une faible puissance de calcul et indépendamment de l'environnement sonore.

Mostafa SADEGHI (Centre de Recherche Inria Nancy - Grand Est)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

INRIA Centre de Recherche Inria Nancy - Grand Est

Aide de l'ANR 290 636 euros
Début et durée du projet scientifique : mars 2023 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.