DS0905 - Cybersécurité de la société et lutte contre la cybercriminalité

Apport des avancées récentes en identification du locuteur et apprentissage séquentiel pour la structuration en tours de parole en flux – ODESSA

ODESSA

Apport des avancées récentes en identification du locuteur et apprentissage séquentiel pour la structuration en tours de parole en flux

Objectifs

La segmentation et le regroupement en locuteurs est un processus non supervisé qui a pour objectif d'identifier les locuteurs d'un flux audio et de déterminer quel locuteur est actif à chaque instant, sans connaître a priori le nombre de locuteurs ou leurs identités. C'est devenu une technologie clef dans de nombreux domaines comme la recherche d'information par le contenu, la biométrie vocale ou l'analyse des comportements sociaux. Les systèmes à l'état de l'art souffrent de nombreuses limitations, ils sont très dépendants du domaine d'application et manquent de robustesse au type de parole ou aux conditions acoustiques. Ces dernières années, la reconnaissance du locuteur a progressé significativement grâce à l'introduction de nouveaux concepts comme les i-vecteurs ou l'apprentissage profond. Un de nos premiers objectifs est l’intégration de ces approches pour la structuration en locuteurs. De plus, la plupart des systèmes existants considèrent le problème de manière hors-ligne, ce qui n'est plus acceptable pour les applications temps-réel. Puisque notre application principale concerne la sécurité, la mise au point d'un système de structuration en tours de parole en ligne, à faible latence, est nécessaire. Enfin, un troisième objectif du projet est d'intégrer la structure temporelle inhérente aux interactions entre les locuteurs en se fondant sur des techniques d'apprentissage structuré. Dans un contexte de recherche reproductible, l'évaluation des travaux sera conduite sur des bases de données standard (NIST SRE, REPERE, ETAPE, AMI…) ainsi que sur une base collectée durant le projet et correspondant à notre application de lutte contre la cyber-criminalité.

Le projet va tout d’abord se concentrer sur l’application des progrès récents en reconnaissance du locuteur à la structuration en tours de parole, en particulier les i-vecteurs, les réseaux de neurones profonds et l’adaptation au domaine. Leur objectif principal est de réduire les effets de la variabilité intra-classe due principalement au bruit de fond, à la variabilité du canal et l’état du locuteur ou de réduire le biais produit par des données de test inconnues.
Beaucoup d’applications en sécurité nécessitent un traitement temps réel pour la structuration en locuteurs. De nouveaux algorithmes d’apprentissage en ligne seront explorés afin de traiter de grandes quantités de données de manière parcimonieuse en mémoire et temps de calcul, tout en améliorant la robustesse de la modélisation des locuteurs et de la segmentation en présence de segments courts et avec une variabilité parasite.
Les conversations entre plusieurs locuteurs sont habituellement fortement structures et les tours de parole d’un locuteur ne sont pas distribués uniformément dans le temps. Cependant les approches classiques prennent rarement cette structure en compte. Un objectif du projet est de démontrer que les techniques d’apprentissage structuré peuvent être appliquées à la segmentation et au regroupement en locuteurs.
Enfin, nous croyons fortement à la promotion de la recherche reproductible en général et y compris pour la structuration en tours de parole. Nous avons donc souhaité dédier une tâche spécifique à cela, en lien avec l’effort de dissémination, afin d’implémenter les protocoles d’évaluation et les mesures de performance dans des bibliothèques logicielles open source.

• EURECOM a soumis le système classé premier à l’évaluation internationale ‘Albayzin 2016 Speaker Diarization’ organisée par RTTH en Espagne et a reçu l’évaluation award.
• Intégration du calcul de séquences de i-vecteurs dans la librairie open source ‘Bob’
• Intégration de l’algorithme de segmentation en tours de paroles par modèles LSTM dans la librairie open source ‘pyannote’
• Intégration des modules d’évaluation à la librairie ‘pyannote’
• 7 articles acceptés en conférences internationales (en particulier ICASSP et Interspeech)

Un objectif important sur la deuxième partie du projet est de participer à l'organisation d'une campagne d'évaluation internationale en lien avec la structuration en tours de parole.

1. H. Bredin. “TristouNet: Triplet Loss for Speaker turn embedding”. ICASSP 2017. herve.niderb.fr/download/pdfs/Bredin2017.pdf
2. H. Bredin. “pyannote.metrics: a toolkit for reproducible evaluation, diagnostic, and error analysis of speaker

La segmentation et le regroupement en locuteurs est un processus non supervisé qui a pour objectif d'identifier les locuteurs d'un flux audio et de déterminer quel locuteur est actif à chaque instant, sans connaître a priori le nombre de locuteurs ou leurs identités. C'est devenu une technologie clef dans de nombreux domaines comme la recherche d'information par le contenu, la biométrie vocale ou l'analyse des comportements sociaux. Des exemples d'application sont l'indexation de la parole et du locuteur, la reconnaissance du locuteur en conversation, la détection du rôle du locuteur, la transcription automatique, la traduction de parole et la structuration de documents par le contenu.

Malgré vingt ans de recherches, les systèmes à l'état de l'art souffrent de nombreuses limitations. Ils sont très dépendants du domaine d'application - par exemple, un système entrainé sur des enregistrements radio-télévisés d'actualités verra ses performances chuter considérablement sur des enregistrements de réunions, séminaires, de parole conversationnelle téléphonique ou en voix-sur-IP. La parole superposée, le style de parole plus spontané, le bruit de fond, la musique et les sources non verbales (rires, applaudissements) sont des facteurs de nuisance qui affectent la qualité de la structuration en tours de parole.

De plus, la plupart des systèmes existants considèrent le problème de manière hors-ligne, c'est-à-dire que le système dispose de la totalité de l'enregistrement en début d'analyse sans qu'il soit nécessaire de produire un résultat en temps réel. Dans ces conditions, une analyse multi-passe des données est possible et de nombreuses approches efficaces d'apprentissage automatique peuvent s'appliquer. Cependant, ce compromis n'est plus acceptable pour les applications temps-réel lorsqu'il s'agit de sécurité publique et de lutte contre le terrorisme et la cyber-criminalité.

Enfin, après une étape initiale de segmentation en tours de parole, la plupart des approches considèrent le regroupement en tours de parole sans prendre en compte la structure temporelle inhérente aux interactions entre les locuteurs. Un des buts de ce projet est d'intégrer cette information et de se fonder sur des techniques d'apprentissage structuré pour aller au-delà des méthodes usuelles de regroupement hiérarchique.

Puisque notre application principale concerne la lutte contre la cyber-criminalité et la sécurité publique, la mise au point d'un système de structuration en tours de parole en ligne est nécessaire. La recherche à visée applicative devra donc être complétée par une recherche plus fondamentale concernant l'apprentissage structuré et des méthodes telles que les champs aléatoire conditionnels.

La structuration en locuteurs est par nature liée à la reconnaissance du locuteur. Ces dernières années, l'état de l'art en reconnaissance du locuteur a progressé significativement grâce à l'introduction de nouveaux concepts comme les i-vecteurs, l'apprentissage profond, de nouvelles techniques de compensation de session comme l'analyse linéaire discriminante probabiliste, et de nouvelles techniques de normalisation des scores telle que la normalisation symétrique et adaptative des scores. Ces techniques ne sont pas encore complètement intégrées dans les système existants de structuration en locuteurs et l'un des objectifs de ce projet et de réduire le gap observé actuellement.

L'évaluation des algorithmes proposés, afin de s'assurer de leur généricité, sera conduite sur différentes bases de données telles que les conversations téléphoniques combinées de NIST SRE 2008, NIST RT 2003-2004, les enregistrements télévisés du corpus REPERE et le corpus de réunions AMI. De plus, nous collecterons une base de données de taille moyenne correspondant à notre application de lutte contre la cyber-criminalité.

Coordinateur du projet

Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (Laboratoire public)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Idiap Research Institute
EURECOM
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

Aide de l'ANR 308 405 euros
Début et durée du projet scientifique : février 2016 - 42 Mois

Liens utiles