GESTE ET VOIX POUR UNE LECTURE EXPRESSIVE – GV-LEx
Le projet GV-LEx se trouve à l'intersection entre deux domaines d'étude et deux besoins récurrents dans notre société. D'un côté, on constate actuellement la montée en puissance de robots, humanoïdes ou non, destinés à avoir un rôle social (éducation et occupation d'enfants, animation, etc.) ou d'assistance (aide aux personnes âgées, aux handicapés, etc.). Ces robots disposent d'une mobilité et d'une capacité d'adaptation de plus en plus grande et peuvent commencer à réellement interagir avec leur environnement mais manquent de l'expressivité nécessaire à une interaction plus profonde, en particulier pour des enfants. De l'autre côté, la synthèse de la parole est de plus en plus utilisée dans des contextes d'accès à l'information (lecture de mails par téléphone, etc.) ou d'assistance (lecture pour malvoyants, etc.). Les performances des outils de synthèse vocale sont suffisantes pour beaucoup de tâches mais, là aussi, l'expressivité est insuffisante pour permettre un rendu suffisamment agréable et convaincant d'une lecture. La problématique de l'expressivité, sur laquelle butent les deux domaines, est centrale dans les interactions avec des humains, quel que soit leur âge et leur condition. En effet, la lecture d'un livre, par exemple, devient rapidement insupportable lorsqu'elle est faite pendant une heure avec une voix disposant de modalités expressives très pauvres ou inexistantes. De même, si l'on suppose qu'une lecture expressive est possible mais qu'elle est effectuée par un robot immobile et inerte, le robot lui-même n'a aucun intérêt et autant brancher une cassette. L'idée centrale de GV-LEx est de doter un robot de la capacité à effectuer une lecture, la plus agréable possible, avec des capacités d'expressivité basées à la fois sur la voix et la gestuelle. Un tel robot serait extrêmement utile pour des enfants, avec une vertu pédagogique importante, et pour des adultes, en particulier pour des malvoyants. Le projet est centré sur les défis suivants à relever : 1. La mise au point de typologies de l'expressivité, que ce soit pour la voix ou pour la gestuelle. 2. L'analyse linguistique permettant de détecter les expressions présentes dans un texte, le suivi des tours de parole, le suivi de la thématique. Les analyses linguistiques spécifiant un style de lecture et une interprétation du texte devant être exprimées par le robot. 3. La synthèse vocale comprenant des modalités expressives. 4. La synthèse gestuelle expressive, en particulier lorsqu'elle est contrainte par les degrés de liberté du robot, 5. La fusion de la voix et des gestes en un seul modèle permettant de prendre en compte à la fois la redondance nécessaire entre voix et geste et la complémentarité. 6. La possibilité d'adapter les calculs demandés par les traitements considérés aux capacités calculatoires d'un robot dont les performances (processeur, taille mémoire, etc.) sont limitées. Chacun de ces points est un véritable défi et fait l'objet de lots dédiés. Le robot qui sera utilisé dans le projet est NAO (ALDEBARAN), ACAPELA fournira son système de synthèse vocale par concaténation d'unités et intégrera des modalités expressives, l'INRIA aura la responsabilité de l'aspect gestuel du projet et enfin le LIMSI proposera des outils d'annotation multimodale, d'analyse linguistique appliqués à la synthèse de la parole.
Coordination du projet
PME (petite et moyenne entreprise)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
Aide de l'ANR 955 166 euros
Début et durée du projet scientifique :
- 36 Mois