CE23 - Intelligence artificielle 2019

Réseaux de neurones évolutifs end-to-end pour la reconnaissance du locuteur – ExTENSoR

Résumé de soumission

ExTENSor est un projet de recherche fondamentale qui tend à explorer le potentiel des approches entièrement neuronales ("end-to-end") et de leur apprentissage automatique ou évolutif pour le traitement automatique et la classification des signaux de parole. ExTENSoR permettra d’étudier l'utilisation de ces réseaux comme une alternative aux architectures empiriques qui forment l'état de l'art actuel dans de nombreux domaines du traitement de la parole.
ExTENSoR entend également permettre de mieux analyser et comprendre la nature des informations exploitées par les réseaux de neurones et les décisions/scores qu'ils produisent. ExTENSoR est un projet de recherche fondamentale, mais inclut une partie applicative dans les domaines de la reconnaissance du locuteur et de la détection de fraude.

La plupart des approches actuelles, en reconnaissance du locuteur et détection de fraude, deviennent de plus en plus complexes et intègrent des réseaux de neurones dans au moins une de leur composante. Bien sûr, cette description des travaux menés ces dernières années dans le domaine du traitement automatique de la parole est quelque peu simpliste, mais il apparaît clairement que les systèmes automatiques reposent de moins en moins sur des connaissances provenant de notre compréhension de la production et de la perception de la parole. Les algorithmes actuels intègrent de moins en moins de connaissances issues des études sur la production et la perception de la parole pour par exemple déterminer les représentations les plus discriminantes de différents locuteurs ou décider quelle information doit être modélisée et comment les décisions doivent être prises.
À la place, les différentes composantes des systèmes à l'état de l'art sont remplacées par des sous-systèmes appris automatiquement.

Parmi les autres caractéristiques des réseaux de neurones actuels, on peut noter leur complexité croissante et leur caractère "boîte noire" qui ne permettent pas aux chercheurs de comprendre leur fonctionnement ou d'avoir une certaine compréhension du processus qui conduit à leurs décisions. La nature hiérarchique des réseaux de neurones profonds offre des opportunités pour analyser les concepts hauts nivaux appris par ces algorithmes, mais la complexité de ceux-ci fait redouter un risque de surapprentissage. En effet, la taille des modèles et leur capacité de mémoire induisent un risque de mémorisation par le réseau, de l'ensemble des données d'apprentissage.
Nous faisons dans ce projet l'hypothèse que la réduction de la taille des réseaux permettra de réduire le risque de surapprentissage tout en offrant de meilleures opportunités de comprendre le fonctionnement interne de ces réseaux.

Les objectifs du projet ExTENSoR sont les suivants:

- permettre le traitement de la parole par des systèmes entièrement neuronaux, optimisant la chaîne de traitement complète, du signal brut au score;
- évaluer le potentiel des approches entièrement neuronales évolutives;
- déterminer si les réseaux résultants de ces apprentissages permettent réellement une meilleure interprétation de leur fonctionnement;
- étant donnée l'expertise des deux partenaires, ExTENSoR vise le développement de systèmes entièrement neuronaux appris de façon évolutive pour les tâches de reconnaissance du locuteur et de détection de fraude.

Anthony Larcher (LABORATOIRE D'INFORMATIQUE DE L'UNIVERSITE DU MANS (LIUM))

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LIUM LABORATOIRE D'INFORMATIQUE DE L'UNIVERSITE DU MANS (LIUM)
EURECOM EURECOM

Aide de l'ANR 333 718 euros
Début et durée du projet scientifique : décembre 2019 - 24 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.