Open data, outils et challenges pour l'anonymisation des voix – Harpocrates
A travers l'usage croissant des interfaces vocales et des applications smartphone, une quantité croissante de données vocales est capturée, stockée et utilisée par les fournisseurs des services. Dans la majorité des cas, cet usage des données vocales ne montre pas d'intention malveillante.
Cependant, les données vocales contiennent par nature des informations personnelles, sensibles, qui ne doivent pas être diffusées à d'autres.
Elles informent sur votre état de santé, votre statut socio-économique, vos origines géographiques et ethniques, votre personnalité ou vos ressentis émotionnels. Les enregistrements vocaux sont également une source d'information sur votre cercle familial, vos proches ou vos relations professionnelles.
Protéger ces informations des usages malveillants ou éthiquement répréhensibles est une nécessité pour éteindre le risque d'atteintes à notre vie privée.
Deux stratégies permettent cela : protéger/crypter les données ou les anonymiser. Si le choix de la meilleure solution dépend naturellement de l'application visée, ces deux stratégies sont complémentaires, d'une part, et l'anonymisation est plus flexible pour un surcoût réduit, d'autre part.
Les techniques d'anonymisation peuvent être mises en œuvre pour supprimer du signal vocal les éléments personnels à protéger tout en conservant l'intelligibilité et la qualité du message. Une fois anonymisés, les enregistrements vocaux peuvent être traités, stockés et (re)utilisés sans risque de lier les éléments d'information aux locuteurs concernés. Malheureusement, l'offre de solutions d'anonymisation et les progrès de celles-ci restent limités par un manque d'outils et de jeux de données ouverts accessibles à tous. Ces éléments sont indispensables pour évaluer la performance des solutions et les comparer. Comme pour tout problème de reconnaissance de formes, ce manque de ressources est un verrou majeur.
Harpocrates formera un groupe de travail et une communauté de développement de développement de ressource qui en plus de proposer les premières ressources ouvertes du domaine organisera également le premier challenge international en anonymisation de données vocales. L'expérience acquise dans d'autres domaines (reconnaissance de la parole, du locuteur, de la langue...) montre qu'un tel effort, poursuivi année après année, permet des progrès significatifs et un transfert rapide vers l'industrie. Ce dernier point est capital car la demande en termes de protection des données personnelles croit fortement et est urgente (des données publiées ne peuvent plus être protégées). Les solutions d'anonymisation seront de fait un composant nécessaire pour répondre aux attentes de la législation sur la protection des données sensibles, pour les approches de développement "privacy by design"?
Coordination du projet
Nicholas EVANS (EURECOM)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
EUR EURECOM
LIA Laboratoire d'Informatique d'Avignon
Inria Centre de Recherche Inria Nancy - Grand Est
Aide de l'ANR 97 026 euros
Début et durée du projet scientifique :
septembre 2019
- 18 Mois