CE23 - Données, Connaissances, Big data, Contenus multimédias, Intelligence Artificielle

Apprentissage distribué, personnalisé, préservant la privacité pour le traitement de la parole – DEEP-PRIVACY

Apprentissage distribué, personnalisé, préservant la privacité pour le traitement de la parole

Le projet concerne le développement d’approches distribuées, personnalisées et préservant la vie privée pour la reconnaissance de la parole. Nous proposons une approche dans laquelle le terminal de chaque utilisateur exécute localement des calculs privés et ne partage pas ses données vocales brutes, alors que certains calculs inter-utilisateurs (telles que l’enrichissement de modèles) sont réalisés sur un serveur ou un réseau peer-to-peer, avec des données vocales partagées après anonymisation.

Objectifs

La reconnaissance vocale est maintenant utilisée dans de nombreuses applications, dont les assistants virtuels qui collectent, traitent et stockent des données vocales personnelles sur des serveurs centralisés, ce qui soulève de sérieuses préoccupations concernant la privacité. L’utilisation d’une reconnaissance vocale embarquée permet de traiter ces aspects de privacité, mais seulement pendant la phase de reconnaissance de la parole. Cependant, il y a encore besoin d'améliorer davantage la technologie de reconnaissance vocale car ses performances restent limitées dans des conditions défavorables (e.g., environnements bruyants, parole réverbérée, accents forts, etc). Cela ne peut être obtenu qu’à partir de grands corpus de parole représentatifs de conditions d'utilisation réelles et variées. Il est donc nécessaire de partager des données vocales tout en garantissant la privacité. Les améliorations obtenues grâce aux données vocales partagées seront alors bénéfiques pour tous les utilisateurs. <br /><br />Dans ce contexte, DEEP-PRIVACY propose un nouveau paradigme basé sur une approche distribuée, personnalisée et préservant la privacité. Certains traitements sont effectués sur le terminal de l’utilisateur, ce qui garantit la privacité, et permet de personnaliser des traitements pour optimiser les performances. En ce qui concerne les données de parole à partager sur un serveur ou un réseau peer-to-peer, elles doivent être anonymisées avant d’être partagées. Cela définit les objectifs du projet : le premier concerne l’apprentissage de représentations du signal vocal préservant la vie privée, tandis que le deuxième concerne les algorithmes distribués et la personnalisation.

L'apprentissage de représentations du signal vocal préservant la privacité, vise à démêler les caractéristiques susceptibles d'exposer des informations privées (à conserver sur le terminal) de celles génériques utiles à la tâche concernée (qui satisfont des aspects de privacité, et peuvent être partagées). Pour la reconnaissance de la parole, cela correspond respectivement à des informations de locuteur (à protéger) et à des informations linguistiques (à partager) portées par la parole. Nous explorerons plusieurs directions, toutes basées sur des approches d'apprentissage profond ; et, outre les mesures classiques de reconnaissance de parole et du locuteur, nous utiliserons également des notions formelles de privacité pour évaluer leur performance.

L’approche distribuée et la personnalisation reposent sur la conception d'algorithmes distribués efficaces fonctionnant dans un environnement où les données utilisateur sensibles sont conservées sur le terminal, avec des composants globaux fonctionnant sur des serveurs et des composants personnalisés fonctionnant sur des terminaux personnels. Les données transférées aux serveurs devraient contenir des informations utiles pour l'apprentissage et la mise à jour des composants globaux (modèles acoustiques), tout en préservant la privacité. Nous étudierons le type de données à échanger (e.g., gradients, modèles partiels, ...) et étudierons les informations de locuteur restant présentes dans ces données. De plus, les composants personnalisés permettent d'introduire des transformations spécifiques aux locuteurs et d'adapter certains paramètres du modèle au locuteur. Enfin, nous considérerons un contexte peer-to-peer, comme une alternative aux serveurs, pour le partage de données et l’apprentissage de modèles.

Résultats intermédiaires.

Les premiers travaux ont porté sur l’étude d’une approche d’apprentissage profond adversariale pour obtenir une représentation du signal de parole utile pour la reconnaissance de la parole et non pertinente pour la vérification du locuteur ; et sur l’évaluation et l’approfondissement d’approches à base de techniques de conversion de voix reposant également sur l’apprentissage profond.

Un protocole d’évaluation de l’anonymisation a été élaboré, et plusieurs scénarios ont été définis en prenant en considération différents niveaux de connaissance dont pourrait disposer un attaquant. Plusieurs métriques de mesures de la privacité ont été comparées et évaluées.

(le projet est en cours)

Les publications sont disponibles sur le site web du projet.

La reconnaissance vocale est maintenant utilisée dans de nombreuses applications, dont les assistants virtuels qui collectent, traitent et stockent des données vocales personnelles sur des serveurs centralisés, ce qui soulève de sérieuses préoccupations concernant la privacité. Des approches à base de reconnaissance vocale embarquée ont récemment été proposées pour traiter ces aspects de privacité, mais seulement pendant la phase de reconnaissance de la parole. Dans ce cas, comme tous les traitements sont effectués sur le terminal de l'utilisateur, les données vocales restent privées. Cependant, il y a encore besoin d'améliorer davantage la technologie de reconnaissance vocale car ses performances restent limitées dans des conditions défavorables (e.g., environnements bruyants, parole réverbérée, accents forts, etc). Cela ne peut être obtenu qu’à partir de grands corpus de parole représentatifs de conditions d'utilisation réelles et variées. Pour cela, il est nécessaire de partager des données vocales tout en gardant l'identité du locuteur privée. Les améliorations sont alors bénéfiques pour tous les utilisateurs, . Il est également évident que l'utilisateur doit avoir le contrôle sur ses données, afin de ne pas transmettre de données dont les contenus linguistiques sont critiques.

Dans ce contexte, DEEP-PRIVACY propose un nouveau paradigme basé sur une approche distribuée, personnalisée et préservant la privacité pour le traitement de la parole, en mettant l'accent sur les algorithmes d'apprentissage pour la reconnaissance de la parole. Pour ce faire, nous proposons une approche hybride: le terminal de chaque utilisateur ne partage pas ses données vocales brutes et exécute des calculs privés localement, alors que certains calculs inter-utilisateurs sont réalisés sur un serveur (ou un réseau peer-to-peer). Pour satisfaire aux exigences de privacité, les informations communiquées au serveur ne doivent pas exposer d'informations sensibles. Le projet aborde les défis ci-dessus d'un point de vue théorique, méthodologique et empirique à travers deux objectifs scientifiques majeurs.

Le premier objectif concerne l'apprentissage de représentations du signal vocal préservant la privacité, c’est-a-dire qui démêlent les caractéristiques susceptibles d'exposer des informations privées (à conserver sur le terminal) de celles génériques utiles à la tâche concernée (qui satisfont des aspects de privacité, et peuvent être partagées). Pour la reconnaissance de la parole, cela correspond respectivement à des informations de locuteur (à protéger) et à des informations linguistiques (à partager) portées par la parole. Pour atteindre cet objectif, nous explorerons plusieurs directions, toutes basées sur des approches d'apprentissage profond ; et, outre les mesures classiques de reconnaissance de parole et du locuteur, nous utiliserons également des notions formelles de privacité pour évaluer leur performance.

Le deuxième objectif concerne les algorithmes distribués et la personnalisation, grâce à la conception d'algorithmes distribués efficaces fonctionnant dans un environnement où les données utilisateur sensibles sont conservées sur le terminal, avec des composants globaux fonctionnant sur des serveurs et des composants personnalisés fonctionnant sur des terminaux personnels. Les données transférées aux serveurs devraient contenir des informations utiles pour l'apprentissage et la mise à jour des composants globaux (modèles acoustiques), tout en préservant la privacité. Nous étudierons le type de données à échanger (e.g.., gradients, modèles partiels ...) et étudierons les informations de locuteur restant présentes dans ces données. De plus, les composants personnalisés permettent d'introduire des transformations spécifiques aux locuteurs et d'adapter certains paramètres du modèle au locuteur. Enfin, nous considérerons un contexte peer-to-peer, comme une alternative aux serveurs, pour le partage de données et l’apprentissage de modèles.

Coordination du projet

Emmanuel VINCENT (Centre de Recherche Inria Nancy - Grand Est)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Inria Centre de Recherche Inria Nancy - Grand Est
LIUM LABORATOIRE D'INFORMATIQUE DE L'UNIVERSITE DU MANS (LIUM)
MAGNET Machine Learning in Information Networks
LIA Laboratoire Informatique d’Avignon

Aide de l'ANR 611 604 euros
Début et durée du projet scientifique : - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter