CE23 - Intelligence Artificielle

Tête parlante 3D complète avec simulations aéro-acoustiques – Full3DTalkingHead

Résumé de soumission

L’objectif est de réaliser une tête parlante numérique tridimensionnelle complète comprenant le conduit vocal depuis les plis vocaux jusqu’aux lèvres, le visage et intégrant la simulation numérique des phénomènes aéro-acoustiques.

Notre projet vise particulièrement l’apprentissage des gestes articulatoires à partir de corpus de données du conduit vocal (IRM temps réel), du visage (capture du mouvement) et de la pression sous-glottique, la mise en évidence des variables articulatoires latentes qui sont pertinentes du point de vue du contrôle de la production de la parole, et des simulations aéro-acoustiques qui permettent d’explorer la production de la parole et l’apprentissage du contrôle d’une maquette simulant le conduit vocal. Le projet utilisera largement les techniques d’apprentissage profond en interaction avec des simulations physiques ce qui une innovation importante.

Le consortium est formé de 4 équipes de recherche remarquablement complémentaires avec des expériences théoriques et pratiques de premier plan international dans les domaines de l’IA (particulièrement les techniques d’apprentissage profond dans le cadre du traitement automatique de la parole), de l’acoustique, de la phonétique expérimentale, de l’imagerie par IRM et du traitement automatique de la parole.

Le projet est organisé en 5 tâches principales :
1) acquisition d’un corpus de données couvrant 3 heures de parole (avec plusieurs expressions) pour une locutrice et un locuteur (plus deux locuteurs avec des données moins complètes) pour les modalités de l’IRM dynamique, de données déformation du visage et de données de pression sous-glottique.
2) prétraitement du corpus pour suivre le contour des articulateurs dans les films IRM, aligner les modalités, débruiter les données de parole, et reconstruire le conduit vocal en 3D à partir de données 2D dynamiques et d’IRM 3D statiques.
3) développement du contrôle de l’évolution temporelle de la forme du conduit vocal, du visage et de l’ouverture à la glotte à partir de la suite des phonèmes à articuler et d’informations supra-segmentales. L’approche reposera sur un apprentissage profond s’appuyant sur le corpus du projet et visera notamment à faire émerger des variables latentes permettant de contrôler la tête parlante et de restituer les expressions.
4) apprentissage du contrôle d’une maquette physique du conduit vocal simplifié à l’aide d’un grand nombre de mesures. L’apprentissage profond permettra de développer les stratégies de production des occlusives faisant intervenir des phénomènes trop rapides pour être imagés avec une précision suffisante.
5) adaptation de la tête parlante à d’autres locuteurs à partir de repères anatomiques et étude de l’impact acoustique de perturbations articulatoires à l’aide de la tête parlante.

La tête parlante générera l’évolution temporelle de la forme complète du conduit vocal et du visage et le signal produit par simulation acoustique à partir d’une phrase à prononcer. Il sera aussi possible de produire le signal audio-visuel sans passer par la simulation acoustique mais en perdant la possibilité d’introduire des perturbations sur la production et donc d’étudier en profondeur la production de la parole ce qui fait l’intérêt principal de ce projet.

La première retombée est le développement d’une approche radicalement nouvelle de la modélisation de la production de la parole. Jusqu’à présent les modèles de production, et notamment ceux utilisés pour la synthèse articulatoire, utilisaient des modèles numériques dont le cadre formel limitaient la prise en compte de données réelles dont l’IRM temps réel.
Les domaines d’application concernent l’exploitation de données d’IRM dynamique, le diagnostic de pathologies de la parole, un feedback en temps réel à l’intérieur de la machine IRM, la rééducation des gestes d’articulation, la diffusion de têtes parlantes réalistes pour l’ensemble du conduit vocal et l’amélioration du rendu des lèvres dans les têtes parlantes.

Coordination du projet

Yves Laprie (Laboratoire lorrain de recherche en informatique et ses applications (LORIA))

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

IADI IMAGERIE ADAPTATIVE DIAGNOSTIQUE ET INTERVENTIONNELLE
LEGI Laboratoire des Ecoulements Géophysiques et Industriels
LORIA Laboratoire lorrain de recherche en informatique et ses applications (LORIA)
LPP Laboratoire de Phonétique et Phonologie

Aide de l'ANR 619 748 euros
Début et durée du projet scientifique : mars 2021 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter