CE33 - Interaction, Robotique – Intelligence artificielle

ROBOVOX - Identification vocale robuste pour les robots de sécurité mobiles – ROBOVOX

ROBOVOX

Identification vocale robuste pour les robots de sécurité mobiles

Objectifs

Ce projet est dédié à l’identification vocale robuste pour les robots de sécurité mobiles et propose des solutions intégrant des modalités d’appoint à la reconnaissance de la voix, tirant partie du contexte d’interaction homme-robot.

La stratégie retenue pour ce projet est avant tout pragmatique. Elle consiste tout d’abord à s’appuyersur le fort background des partenaires en identification vocale, atténuation des nuisances acoustiques,dialogue homme-machine et robots autonomes. Ce savoir-faire permettra une mise en oeuvre rapide etune estimation fiable des difficultés à résoudre. Le deuxième point fort de la stratégie de ROBOVOXconsiste à tirer au mieux parti de de l’élément central du projet : si le contexte du robot autonome estla source majeure de difficulté, alors utilisons au mieux ce contexte pour résoudre ce point ! La priseen considération des différents microphones, la localisation de l’intrus et la possibilité de placer celui-ci à l’endroit optimal constituent un premier exemple de mise en oeuvre de cette orientationstratégique. Contourner certaines difficultés (faibles durées de message) par les capacités en dialoguevocal en est un deuxième.

RAS

RAS

1. Mohammad Mohammadamini, Driss Matrouf, Paul-Gauthier Noé. Denoising x-vectors for Robust Speaker Recognition. Odyssey 2020 The Speaker and Language Recognition Workshop, Nov 2020, Tokyo, Japan. pp.75-80,

2. Mohammad Mohammadamini, Driss Matrouf. Data augmentation versus noise compensation for x-vector speaker recognition systems in noisy environments. EUSIPCO, Jan 2021, Amsterdam, Netherlands.

3. Pierre-Michel Bousquet and Mickaël Rouvier. The LIA System Description for SdSV Challenge Task. InterSpeech 2020 (Session SdSV Challenge)
4. Mickaël Rouvier and Pierre-Michel Bousquet. Review of different robust x-vector extractors for speaker verification. EUSIPCO 2020

5. Pierre-Michel Bousquet and Mickaël Rouvier. Adaptation strategy and clustering from scratch for new domains of speaker recognition Speaker Odyssey 2020

Durant les périodes d’inactivité, utiliser un robot mobile autonome pour surveiller des locaux industriels est une solution offrant un rapport coût/efficacité excellent. Le robot se déplace dans les locaux et analyse l’activité dans ceux-ci. Lorsqu’une personne est détectée, le robot est chargé de vérifier son identité. En cas de difficulté, le robot contacte alors un opérateur humain. Un des objectifs majeurs de ce projet est de prendre en compte de manière aussi réaliste que possible les conditions réelles d’utilisation du robot. Cela implique de mener des expériences sur le robot lui-même et dans un environnement réaliste. L'identification vocale dans le cadre d’un robot mobile de sécurité doit faire face à plusieurs défis relatifs à l’identification à distance d’une personne en conditions réelles, pouvant réduire à l’heure actuelle les performances de façon drastique : le bruit ambiant et les bruits internes du robot (liés aux activateurs du robot) qui se répercutent sur les capteurs audio amenant de faibles rapports signal sur bruit (RSB), les phénomènes de réverbération dus à la configuration des lieux très variables dans lesquels se trouve le robot, l’emplacement variable des locuteurs, etc. Nous proposons dans ce projet des méthodes et des approches pour tenter de lever les différents verrous scientifiques précédemment cités. Les solutions proposées sont basées sur notre expertise dans le domaine de la modélisation acoustique et du traitement du signal, ainsi que sur l’exploitation des réseaux de neurones profonds. Ces derniers sont au cœur de la recherche en apprentissage automatique dans bon nombre de domaines, ils dépassent les méthodes purement statistiques utilisées jusqu'à lors.

Malgré les efforts fournis pour lever les verrous acoustiques, il existe des scénarios dans lesquels l’identification vocale seule ne pourra pas offrir une fiabilité totale. Dans les applications où un haut niveau de sécurité est nécessaire, l’utilisation d’une modalité unique est souvent trop risquée et l’identification vocale est souvent mise en oeuvre conjointement avec d’autres modalités d’identification. Ainsi, pour répondre à ce besoin, le robot proposé dans ce projet utilise ses capacités d’interaction avec les personnes détectées. Cette modalité est utilisée lorsque le robot ne dispose pas d’assez d’éléments pour prendre une décision fiable. Il peut jouer sur ses capacités d’interaction d’une part pour acquérir davantage de données acoustiques dans le but de consolider l’authentification vocale. Le robot peut également utiliser le module d'interaction pour lever une ambiguïté par un jeu de questions-réponses simples basées sur des connaissances vérifiables par le robot (par exemple demander le prénom ou le nom du responsable direct de la personne inspectée). Enfin, des informations sur l’état émotionnel du locuteur et sur la scène acoustique seront transmises au système de manière à adapter la stratégie de dialogue, le comportement du robot et les algorithmes de pré-traitement et d’identification vocale.

En addition des attendus scientifiques et techniques directs, ce projet sera l'occasion de la création et la diffusion d’un corpus unique qui permettra pendant et après le projet d’évaluer les solutions apportées pour lever différents verrous, tels que le bruit ambiant, la réverbération ou les courtes durées. Un plan d’évaluation avec un protocole expérimental seront définis pour s’assurer que les solutions développées durant le projet sont pertinentes aussi bien pour la communauté scientifique que pour le partenaire industriel.

Coordination du projet

Driss Matrouf (Laboratoire d'Informatique d'Avignon)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

A.I.MERGENCE
Inria Centre de Recherche Inria Nancy - Grand Est
LIA Laboratoire d'Informatique d'Avignon

Aide de l'ANR 665 677 euros
Début et durée du projet scientifique : janvier 2019 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter