JCJC - Jeunes chercheuses et jeunes chercheurs

– ViSAC

Résumé de soumission

L'objectif de notre projet est d'apporter une contribution dans le domaine de la synthèse de parole acoustique et de parole audiovisuelle grâce à l'élaboration et l'utilisation d'un corpus bimodal ayant une couverture la plus large possible des sons de la langue française en considérant son signal acoustique et son signal visuel comme un tout. Ce corpus sera une ressource essentielle et le pivot d'un système de synthèse de parole acoustique et visuelle à partir de texte. Le système constituera le principal résultat de ce projet. Le développement de ce type de système implique d'aborder plusieurs points de recherche concernant les deux domaines simultanément, principalement la coarticulation et la concaténation d'unités. La principale originalité de ce travail est de considérer le signal de parole comme bimodal (composé de deux canaux, acoustique et visuel) pouvant être manipuler à partir de l'une de ces deux facettes (acoustique ou visuelle). A chaque étape, les unités de parole seront considérées comme des couples de segment de parole acoustique et de son segment visuelle correspondant. Ce nouveau point de vue de la synthèse nous aidera à reformuler certains points clés en synthèse de la parole et par conséquences, à améliorer la synthèse de parole acoustico-visuelle. Une des étapes importantes de ce travail est l'enregistrement d'un grand corpus bimodal (que l'on peut considérer même comme très grand pour un corpus de données visuelles). Ce corpus sera composé de données de capture de mouvement et de données acoustiques, le tout enregistré simultanément. L'enregistrement d'un tel corpus constitue un véritable défi. La synthèse acoustico-visuelle sera réalisée en suivant ces étapes : - Sélection dans le corpus d'unités bimodales non-uniformes - Concaténation des unités bimodales. - Système de synthèse bimodale. Ces tâches combinent notre expertise dans le domaine de l'acoustique, de la vision et de l'audiovisuelle, correspondant à nos efforts de recherche à long-terme. Le but de la sélection d'unités bimodales est d'adapter le principe de sélection d'unités acoustique non-uniformes (utilisé dans les systèmes de synthèse à partir de textes) à une sélection d'unités bimodales non-uniformes pour améliorer la synthèse de parole acoustico-visuelle. Le travail consistera principalement à étudier des mesures de distance bimodale pour évaluer le coût de concaténation de deux unités. Le défi est de trouver la meilleure façon de combiner les caractéristiques acoustiques et visuelles pour prendre en compte les différences perceptuelles à la frontières des deux unités bimodales. Un objectif principal est de minimiser les divergences entre les deux unités sélectionnées. Cependant, cette mesure ne pourra garantir que l'étape de sélection pourra éviter toute différence entre deux unités adjacentes. Plusieurs pistes de recherche sont alors envisagées pour résoudre ce problème et seront évalués. L'étape suivante consiste à étudier et réaliser la concaténation effective des unités bimodales. Pour préserver le naturel des unités bimodales, notre approche se veut locale aux frontières des unités, mais dans des cas extrêmes, l'utilisation de toute ou une partie de l'unité sera envisagée notamment dans l'espace visuel. Le système final acceptera en entrée le texte devant être synthétisé et donnera en sortie la parole acoustique et les contrôles visuels correspondant. Ces contrôles permettront des reconstruire un visage avec des points 3D (meshes non-denses). Comme l'utilisation d'une tête non-dense comme synthèse visuelle n'est pas adéquate, ces points seront mappés sur une tête 3D haute résolution (meshes denses). Dues à la technique d'acquisition, les lèvres ne sont pas visibles tout le temps. Cela constitue un problème à résoudre (technologiquement ce point ne peut être résolu de manière adéquate). Plusieurs approches, avec ou sans modèle géométrique a priori, seront étudiées. Enfin, le système sera évalué de manière objective ainsi que percept

Coordinateur du projet

Monsieur Slim Ouni (UNIVERSITE DE LORRAINE)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

UNIVERSITE DE LORRAINE

Aide de l'ANR 210 193 euros
Début et durée du projet scientifique : - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter