TLOG - Technologies logicielles 2007

Nouvelle génération d' Avatars expressifs temps réel pilotés à la voix – Affective avatars

Résumé de soumission

Les interfaces 3D temps réel apparaissent comme un nouvel axe stratégique majeur pour les interactions personne système et les interactions humaines en réseau, multipliées et diversifiées par la convergence numérique, De nombreux acteurs économiques investissent aujourd'hui massivement dans la création de services, de jeux ou de mondes virtuels où les utilisateurs interagissent entre eux via leur « avatar ». Le jeu vidéo a ouvert la voie. Leader Historique dans l'univers du jeu en réseau, World of Warcraft possède déjà 7,5 millions d'abonnés payants. Microsoft Xbox Live comptera 6 millions de joueurs en réseau à l'été 2007. La Playstation 3 de Sony donnera accès à deux mondes virtuels : Home et LittleBiglanet La plupart des services et mondes virtuels en gestation aujourd'hui ne sont pas tournés vers le jeu. Les 2,3 millions d'abonnés de Second life habitent ce monde persistant et multi-participants à titre privé ou professionnel, pour s'amuser, jouer, créer, promouvoir leurs produits, faire de la politique, ouvrir une galerie d'art, faire des réunions, des rencontres. De nombreuses marques internationales comme IBM ou Mc Donalds développent déjà leur présence dans Second Life. Google investit des sommes considérables pour transformer progressivement Google Earth en un monde virtuel 3D en réseau. Easygroup (Easyjet, Easy Rent a Car, etc.) prépare un monde virtuel lowcost : Easylife. La BBC prépare l'ouverture en 2007 d'un monde virtuel pour les enfants. L'univers des Sims opère lui aussi sa mutation en un monde virtuel persistant en réseau. Tous font le pari que l'immersion dans des mondes 3D, la réalité virtuelle pour tous sera au coeur des interactions en réseau de demain, et que nous passerons une part grandissante de notre temps à interagir représentés par notre (ou nos) avatars : BCBG pour les interactions professionnelles ? Glamour pour faire des rencontres à la « meetic » ? Féroce ou mystique pour un jeu de rôle ? Dans ce nouveau contexte de communication et d'interaction dans des mondes virtuels, l'expressivité de notre « avatar » devient aussi importante que la nôtre dans le monde réel. Le réalisme comportemental et l'expressivité, la « personnalité » de ces personnages de synthèse sont des facteurs déterminants pour l'adoption des avatars par leurs utilisateurs. L'ouie et la vision sont les principaux sens mobilisables dans les médias numériques, en particulier dans ces mondes virtuels ou les autres sens (toucher, odorat, goût) sont difficiles à médiatiser par la technologie. Le projet Affective Avatars a pour but de créer des avatars affectifs animés en temps réel. La voix de l'utilisateur est l'interface de contrôle de l'expressivité de l'avatar. Les paramètres expressifs/émotionnels extraits par traitement du signal vocal en temps réel, sont utilisés pour piloter l'expression labiale, faciale et corporelle des avatars. Le timbre vocal de l'utilisateur est également transformé en temps réel pour donner à l'avatar une voix cohérente et adaptée à son image. Nous adressons quatre verrous scientifiques/technologiques dans ce projet: Détection d'émotions dans la voix humaine (SP2) : Il s'agit d'enrichir et intégrer une bibliothèque d'extracteurs (indices) expressifs et émotionnels en temps réel, d'augmenter ainsi le nombre de classes d'émotions que l'on peut détecter, et travailler la robustesse temps réel sur des corpus de voix non actées, Modélisation de l'expressivité corporelle (bodytalk) (SP3) : Il s'agit de concevoir et développer des modèles de personnalités, constitués de bibliothèques de « gestes » labiaux, faciaux et corporels ainsi que les relations entre ces dimensions Transformation du timbre vocal en temps réel (SP4) : l'enjeu est de concevoir et développer l'environnement logiciel permettant de transformer en temps réel la voix de l'utilisateur en différents timbres de voix cibles définies pour chaque avatar. Modéliser un catalogue de profils vocaux Expressivité et cohésion multimodale (SP5): Il s'agit de mettre en correspondance les indices émotionnels détectés dans la parole et les comportements expressifs de l'avatar en intégrant les résultats des SP2, 3 et 4 dans l'environnement de production et d'animation d'avatars en temps réel de Cantoche. L'objectif est de construire la cohérence multimodale entre l'analyse de l'expressivité vocale de l'utilisateur et la synthèse gestuelle de l'avatar : labiale, faciale et gestuelle (postures, regards, gestes de la main, mouvements de la tête, etc.) La dimension temps réel et l'interopérabilité logicielle sont au cœur du projet pour : 1) enrichir l'environnement de création et d'animation cible développé par Cantoche 2) modulariser les résultats du projet en librairies middleware ouvertes et intégrables dans différents environnements, réseaux et équipements Le projet intègre un démonstrateur qui permettra de valider une application professionnelle avec des avatars « semi-réalistes», et une application grand public avec des avatars « ludiques ».

Organisme de recherche

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Aide de l'ANR 761 068 euros
Début et durée du projet scientifique : - 24 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.