Projet Harpocrates - Open data, outils et challenges pour l'anonymisation des voix

3 questions sur ce projet lauréat de l’appel Flash science ouverte

En quoi l’application des principes de la science ouverte, à propos des données de la recherche, constitue un enjeu dans votre domaine, discipline ou spécialité ?

Les technologies de reconnaissance automatique de la parole et du locuteur exploitent des algorithmes d'apprentissage automatique et de reconnaissance de formes. Comme pour toute application de ce genre, les progrès peuvent être limités par un manque d'outils et de jeux de données ouverts accessibles à tous. Le projet Harpocrates a pour objectif de développer de nouvelles technologies de traitement automatique de la parole destinées à protéger la vie privée. Il n’existe actuellement aucune base de données ni aucun outil d’évaluation pour appuyer ce travail. Ces éléments sont indispensables pour évaluer la performance des solutions et les comparer. Le manque de ressources est un verrou majeur.

Quels sont les objectifs du projet et les approches envisagées pour y répondre ?

A travers l'usage croissant des interfaces vocales et des applications smartphone, une quantité croissante de données vocales est capturée, stockée et utilisée par les fournisseurs de services. Protéger ces informations des usages malveillants ou éthiquement répréhensibles est une nécessité pour éteindre le risque d'atteintes à notre vie privée. Deux stratégies permettent cela : protéger/crypter les données ou les anonymiser. Les techniques d'anonymisation peuvent être mises en œuvre pour supprimer du signal vocal les éléments personnels à protéger tout en conservant l'intelligibilité et la qualité du message. Une fois anonymisés, les enregistrements vocaux peuvent être traités, stockés et (ré)utilisés sans risque de lier les éléments d'information aux locuteurs concernés. Harpocrates formera un groupe de travail et une communauté de développement de ressources qui en plus de proposer les premières ressources ouvertes du domaine organisera également le premier challenge international en anonymisation de données vocales.

Quelles sont les perspectives en termes d’applications potentielles pour la communauté scientifique du domaine, des autres champs disciplinaires, ou encore pour la société ?

L'expérience acquise dans d'autres domaines (reconnaissance de la parole, du locuteur, de la langue...) montre qu'un tel effort, poursuivi année après année, permet des progrès significatifs et un transfert rapide vers l'industrie. Ce dernier point est capital car la demande en termes de protection des données personnelles croit fortement et est urgente (des données publiées ne peuvent plus être protégées). Les solutions d'anonymisation seront de fait un composant nécessaire pour répondre aux attentes de la législation sur la protection des données sensibles, pour les approches de développement "privacy by design".

Le projet Harpocrates est coordonné par Nicholas Evans au sein d’EURECOM. Il regroupe 3 partenaires : EURECOM, le Laboratoire d'Informatique d'Avignon et l’INRIA, et est financé pour une durée de 18 mois.