CE23 - Données, Connaissances, Big data, Contenus multimédias, Intelligence Artificielle

Apprentissage statistique pour la compréhension de scènes audio – LEAUDS

Résumé de soumission

Une machine peut interpréter et comprendre des images, reconnaître de la parole et de la musique. Cependant, elle est difficilement capable de comprendre des scènes audio ambiantes, par exemple les sons qui se produisent dans une cuisine au matin ou les sons se produisant dans une rue à proximité d'un véhicule. Aujourd'hui, les recherches portant sur la compréhension des scènes audio sont principalement limitées aux problèmes de catégorisation et localisation d'événements sonores et de classification de contextes audio. Bien que ces tâches soient utiles en soi, le but ultime de la compréhension de scène audio va bien au-delà de l'attribution d'étiquettes à quelques types d'événements sonores. En effet, il vise à développer des machines qui comprennent
parfaitement une scène sonore. LEAUDS propose une avancée vers cet objectif en réalisant des percées dans trois directions essentielles pour aboutir à la prochaine génération de machine audio intelligente. Ces directions abordent les questions de l'interprétation d'événements sonores, la robustesse des modèles pour des applications «hors-laboratoire» et un modèle de langage pour la description des scènes audio. Ainsi, LEAUDS développera des algorithmes d'apprentissage exploitant des données faiblement étiquetées, des méthodes d'apprentissage capables de découvrir de nouveaux événements sonores et d'apprendre avec peu d'exemples. La robustesse de l'interprétation des événements audio est un défi essentiel à lever en vue d'applications rééls. LEAUDS abordera cette question à travers le prisme de la séparation de sources audio et de l'adaptation de domaine. Développer des outils pour manipuler et composer des événements sonores est important pour produire des interprétations sémantiquement riches. Ce troisième défi sera abordé par des modèles d'apprentissage capables de transformer une séquence ou un graphe d'événements audio en une phrase. Ces avancées scientifiques seront transformées en avancées technologiques par le développement d'un prototype de capteur intelligent pour maison intelligente. Tandis que LEAUDS s'attaque à des questions relatives à la perception audio et à l'apprentissage automatique, ses résultats auront un impact majeur dans des domaines tels que la santé, la maison intelligente, la perception urbaine, et la reconnaissance de contexte des systèmes mobiles et embarqués.

Coordination du projet

Gilles Gasso (Laboratoire d'Informatique, du Traitement de l'information et des Systèmes)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

NETATMO
LITIS Laboratoire d'Informatique, du Traitement de l'information et des Systèmes
Inria Centre de Recherche Inria Nancy - Grand Est

Aide de l'ANR 546 518 euros
Début et durée du projet scientifique : - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter