Blanc SIMI 3 - Blanc - SIMI 3 - Matériels et logiciels pour les systèmes et les communications

Fiabilité en Biométrique Vocale – FaBiole

Fiabilité en Biométrique Vocale

Fabiole vise un changement de paradigme pour la reconnaissance du locuteur : passer de la performance (taux d'erreus) à la fiabilité.<br />La portée applicative de ce projet est très large. Les résultats permettront de mieux percevoir les possibilités et les limites de la comparaison de voix dans le milieu judiciaire mais également de fiabiliser les systèmes de reconnaissance du locuteur utilisés dans les applications commerciales, en très fort développement.

Une demande forteet en augmentation pour l'authentification vocale

La comparaison de voix, ou de manière plus générale l’identification biométrique vocale, est un domaine suscitant un très fort intérêt qui peut être vu sous trois angles différents.<br />En premier lieu, cette problématique est très présente dans le milieu judiciaire et cela depuis très longtemps. Avec l'arrivée des nouvelles technologies de communication, la demande est en forte augmentation.Au niveau international, le monde judiciaire comme le monde scientifique restent très ambivalents au sujet de l’identification vocale, très controversée. Sachant que ces analyses sont très fréquemment utilisées, les risques de controverses judiciaires telle l’affaire d’Outreau restent très présents. L’arrivée des méthodes automatiques, avec un niveau de performance annoncé comme très bon apporte un espoir mais, à ce jour, ne garantit en rien la résolution des risques et des difficultés,<br />Le deuxième domaine d’intérêt pour la reconnaissance du locuteur relève de la problématique de la sécurité nationale et plus particulièrement de la lutte anti-terrorisme. Des acteurs économiques privés sont depuis quelques années présents dans ce secteur qui apparait comme étant en très fort développement économique. <br />Enfin, la reconnaissance du locuteur soulève un fort intérêt au niveau des applications commerciales. La sécurisation de transactions bancaires et la protection de la vie privée (accès à des données personnelles par téléphone ou sur internet) sont les deux secteurs montrant le plus fort développement.<br />Des travaux précédents ont montré que si les dernières approches en reconnaissance du locuteur obtenaient des performances impressionnantes, celles-ci variaient très largement d'un cas à l'autre et sans que les raisons de cette variation soient expliquées ou prévisibles. Cet état de fait constitue la limitation majeure pour le développement du domaine.<br />Les attendus du présent projet visent à répondre à ce problème, avec des applications dans chacun des trois domaines décrits ci-dessus<br />

Fabiole vise à dépasser la notion de « performance », dans laquelle seuls les taux d’erreur sont mesurés et cela sans rechercher les raisons de cette performance (i.e. les informations présentes qui ont permis celle-ci), pour atteindre la notion de « fiabilité », dans laquelle la présence des facteurs reconnus comme caractéristiques du locuteur est recherchée et quantifiée avant de procéder à une comparaison de voix.
Cette ambition est déclinée en quatre objectifs. Il s’agit en effet de faire avancer en même temps les connaissances sur les indices idiosyncratiques caractéristiques du locuteur, les approches automatique d’estimation de la présence de ces indices dans un enregistrement donné, les méthodes d’évaluation utilisées en Reconnaissance Automatique du locuteur (RAL) et de proposer une méthode automatique apte à ajouter la notion de confiance basée sur la présence et l’homogénéité des indices idiosyncratiques présents dans les enregistrements.
Fabiole s'apuiera sur les approches «état de l'art« en reconnaissance du locuteur ainsi que sur les campagnes et protocoles d'évaluation internationaux.

Des résultats correspondant aux quatre points listés dans la section précédente sont attendus.
Les premières avancées concerneront un nouveau protocole d'évaluation de la qualité, respectant le paradigme de la fiabilité.

Les perspectives seront déterminées ultérieurement.

Des articles seront soumis dans les conférences et journaux majeurs du secteur.
Les logiciels correspondant seront distribués sous forme de logiciel libre

Ce projet s'inscrit dans le domaine de l'authentification biométrique vocale et s'attache plus particulièrement à explorer l'apport des « connaissances phonétiques » dans ce cadre applicatif.
Depuis près de 15 années, des systèmes de Reconnaissance Automatique du Locuteur (RAL) sont évalués par le NIST à travers les campagnes SRE. Ces évaluations montrent une progression importante des performances, amenant à envisager de nombreuses applications notamment dans le domaine judiciaire.
Les conséquences que peuvent avoir de telles applications nécessitent de s’interroger sur la fiabilité des mesures d'évaluation effectuées. En effet, les critères actuellement employés pour mesurer la performance d'un système sont estimés globalement sur l'ensemble des tests effectués. Il s'agit de mesures de Taux d'Egale Erreur (EER) ou de Decision Cost Function (DCF). Ces mesures moyennes calculées sur un grand nombre de tests provenant de locuteurs différents ne tiennent qu'imparfaitement compte du cadre applicatif pour lequel une réponse doit être retournée pour un cas précis lié à des données impliquant seulement un ou deux locuteurs donnés. En particulier, ce mode d’évaluation ne prend en considération ni la différence entre un enregistrement et un locuteur, ni les différences entre locuteurs. Des travaux récents montrent clairement les limites des mesures de performance utilisées.
L'objet de ce projet est double. Dans un premier temps, il s’agit de caractériser et de mesurer l’influence des facteurs acoustiques et phonétiques amenant la variabilité interlocuteur. Il ne s’agit plus ici de mesurer une réussite globale en termes de reconnaissance du locuteur mais de préciser la part de variabilité interlocuteur expliquée par chacun des facteurs ainsi caractérisés. Dans un deuxième temps, ces éléments serviront à établir une mesure de confiance en comparaison de voix, basée uniquement sur les deux enregistrements de voix à comparer soit indépendamment de la technique utilisée par la suite. Il s’agit ici d’identifier les informations caractéristiques du locuteur présentes dans chacun des deux enregistrements et de mesurer la cohérence de ces informations.

Outre les apports en termes de connaissances sur les caractéristiques individuelles portées par la voix, ce projet permettra, pour la comparaison de voix, de dépasser le cadre de la performance pour entrer dans le domaine de la fiabilité.
Les systèmes automatiques seront ainsi en charge de prendre une décision binaire alors que la mesure de confiance indépendante permettra de rendre compte de la fiabilité de cette décision.

La portée applicative de ce projet est très large. Les résultats permettront de mieux percevoir les possibilités et les limites de la comparaison de voix dans le milieu judiciaire mais également de fiabiliser les systèmes de reconnaissance du locuteur utilisés dans les applications commerciales, en très fort développement. L’indépendance de la mesure de fiabilité vis-a-vis des systèmes de reconnaissance du locuteur permettra d’ajouter ce module de fiabilité dans une très large part des applications déjà existantes ou à venir.

Coordination du projet

Jean-François BONASTRE (Laboratoire Informatique d'Avignon) – jean-francois.bonastre@univ-avignon.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LIG Laboratoire d'Informatique de Grenoble
LNE Laboratoire National de Métrologie et d'Essais
LIA Laboratoire Informatique d'Avignon

Aide de l'ANR 282 000 euros
Début et durée du projet scientifique : février 2013 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter