CE38 - Interfaces : mathématiques, sciences du numérique – sciences humaines et sociales 2023

L'effort vocal de la reconnaissance à la synthèse – VERS

Résumé de soumission

Ce projet aborde les problèmes de modélisation liés aux variations d'effort vocal pour le traitement des caractéristiques acoustiques de la voix et de la parole. L'effort est une source majeure de variabilité lors de la production de la parole (Liénard, 1999) mais reste complexe à définir (en fonction de la distance, ou du débit glottique, etc.). L'un de ses principaux produits consiste en une variation de la Force de Voix (FdV), tel que défini par Liénard (2019) : la force de voix correspond au niveau de pression acoustique (SPL, avec pondération C) produit par un locuteur, mesuré en champ libre à un mètre en face du locuteur. La voix résulte d'interactions complexes entre ajustements sous-glottiques, glottiques et supraglottiques ; Titze & Sundberg (1992) ont montré que l'effort nécessaire pour produire une FdV donnée dépend du locuteur et que des ajustements permanents des réglages musculaires sont nécessaires pour produire une qualité vocal particulière, qu'elle soit faible ou forte. Le SPL est malheureusement perdu dans la plupart des enregistrements en raison de chaînes d'enregistrement non calibrées et de microphones inadéquats (Švec, 2018) – cependant les auditeurs savent estimer la FdV d'origine à partir des caractéristiques spectrales. Ce projet vise à produire une estimation de la FdV sur des données de corpus qui n'ont pas été calibrés — typiquement données de média ou de parole spontanée — mais pour lesquels l'effort est une dimension dominante pour expliquer les caractéristiques vocales. Pouvoir disposer d'une estimation robuste de l'intensité de la voix, et la capacité de modifier par des méthodes de synthèse de la parole, les caractéristiques acoustiques liées à la FdV dans un signal donné, serait une étape importante pour progresser dans la compréhension de la parole dans son usage communicatif dans les interactions face-à-face, comme pour les technologies de traitement automatique de la parole.

Marc EVRARD (Laboratoire Interdisciplinaire des Sciences du Numérique)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LISN Laboratoire Interdisciplinaire des Sciences du Numérique
GIPSA-lab Grenoble Images Parole Signal Automatique
Service de la Recherche

Aide de l'ANR 244 994 euros
Début et durée du projet scientifique : décembre 2023 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.