CORD - Contenu et interaction 2009

DEpouillement automatique de COnversations provenant de centres D'Appels – DECODA

Résumé de soumission

La fouille de données sonores est un nouveau domaine de recherche au confluent de trois thématiques : la Reconnaissance Automatique de la Parole, le Traitement Automatique de la Langue Naturelle et la Fouille de Données. Le premier niveau de traitement consiste à traduire le signal de parole en une ou plusieurs séquences de symboles. Ces symboles représentent à la fois les hypothèses lexicales sur le contenu linguistique des messages traités et les informations caractérisant les dimensions acoustiques de ces messages : environnement sonore, bruit, type et qualité de parole, locuteur et marques prosodiques. Ce premier niveau de traitement est effectué par les modules de Traitement du Signal et de Reconnaissance Automatique de la Parole (RAP). Les hypothèses lexicales produites, représentées par des graphes de mots, sont ensuite analysées par des modules de Traitement Automatique de la Langue Naturelle (TALN). Enfin, la fouille de données permet de révéler, à partir d'un important corpus de données, les relations statistiques liant ces données, par exemple les associations, permettant en cela de catégoriser et structurer la masse d'information traitée. Les informations prises en entrée sont ici toutes les données extraites durant l'application des modules de RAP et de TALN aux messages oraux. La multiplication récente des centres d'appels et le faible coût du stockage de données audio ont permis l'enregistrement de bases de données de messages oraux de très grande taille. Du point de vue des entreprises, ces centres d'appels constituent une interface stratégique compte tenu de l'importance croissante de la relation client dans leurs politiques industrielles. D'ailleurs, des produits d'analyse automatique ou semi-automatique des interactions client/téléconseiller, appelée 'Speech Analytics', sont désormais proposés par plusieurs entreprises principalement américaines (Nuance, Verint, CallMiner, BBN-Avoke, Nexidia, Autonomy eTalk). Ces produits répondent aux deux principales applications de 'Speech Analytics' : - analyse ponctuelle de gros corpus de dialogues enregistrés à des fins de fouille de donnée comme, par exemple, le diagnostique d'un problème constaté ou encore l'extraction de connaissances sur les performances des centres d'appels et les comportements des utilisateurs , - analyse périodique d'un centre d'appel afin de proposer des outils de surveillance ou 'monitoring' du fonctionnement du centre. Tous ces produits nécessitent l'annotation manuelle de volumes important de données afin d'entraîner et adapter les modèles de reconnaissance et de classification. Cette tâche doit être faite périodiquement afin de prendre en compte l'évolution des fonctionnalités des centres d'appels, entraînant par là même un coût important d'utilisation de ces outils. Le but du projet DECODA est de permettre le développement et la gestion sur le long terme à moindre coût de tels services en permettant d'alléger l'effort d'annotation nécessaire. Le projet propose de développer des systèmes de fouille robuste de données audio, dans le cadre applicatif de centres d'appels, en utilisant à la fois des ressources linguistiques génériques et des méthodes d'apprentissage peu supervisé Le cadre applicatif visé est celui du centre d'appel de la RATP, partenaire du projet. Ce projet se situe en 'recherche fondamentale' dans la mesure où les deux principaux verrous scientifiques visés sont ambitieux : problème de robustesse des méthodes de compréhension de la parole fortement spontanée dans le cadre de dialogues opérateur/client , problème de la limitation de l'effort d'annotation de données grâce à l'emploi de méthodes peu ou non-supervisées pour l'apprentissage et l'adaptation des modèles.

Coordination du projet

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

Aide de l'ANR 462 878 euros
Début et durée du projet scientifique : - 0 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter