CE23 - Intelligence artificielle 2019

Apprentissage artificiel appliqué aux scènes acoustiques augmentées – HAIKUS

Résumé de soumission

L’audition est une modalité essentielle pour appréhender notre environnement spatial et joue un rôle clef pour les applications de Réalité Augmentée (RA). Le projet HAIKUS combine Intelligence Artificielle (IA) et traitement du signal pour la synthèse de scènes sonores augmentées. L’incrustation dans le monde réel de l’auditeur, d’événements sonores synthétiques ou pré-enregistrés avec lesquels il/elle peut interagir est un facteur déterminant pour la sensation d’immersion. La réalité augmentée trouve ses applications dans le monde du jeu, de l’industrie culturelle ou du domaine thérapeutique. Les outils de traitement du signal pour la spatialisation 3D de scènes sonore et la réverbération artificielle sont désormais disponibles et s’appliquent aux systèmes de diffusion multicanale sur haut-parleurs ou à l’écoute binaurale sur casque. Cependant, l’intégration cohérente d’objets sonores virtuels dans la scène réelle représente encore un défi. Elle requiert l’adaptation automatique des paramètres de spatialisation en fonction des propriétés acoustiques de l’environnement réel.

Au sein des méthodes d’IA, l’apprentissage artificiel (AA) est particulièrement adapté au traitement du signal audio pour les applications de réalité virtuelle ou augmentée. Les méthodes d’AA ont montré leur potentiel pour traiter des problèmes acoustiques complexes comme la localisation de sources ou la séparation de sources. Dans le projet HAIKUS les méthodes d’AA seront appliquées à l’identification automatique du canal acoustique entre les sources et l’auditeur. Les trois principaux objectifs du projet sont (a) l’estimation en aveugle des indices acoustiques de la salle et/ou de sa géométrie à partir de l’observation des signaux audio réverbérés émanant des sources présentes dans la salle, (b) l’inférence de règles de modification des paramètres de spatialisation ou l’interpolation de réponses impulsionnelles de salle en fonction des mouvements de l’auditeur, et (c) l’estimation en aveugle des HRTFs de l’auditeur à partir des signaux binauraux captés dans l’environnement grâce à des microphones intra-auriculaires. Ces objectifs couvrent différentes étapes de synthèse de la scène sonore et exploitent la mobilité du sujet pour accumuler des connaissances sur l’environnement et en modéliser les propriétés acoustiques.

Le projet HAIKUS réunit trois équipes de recherche complémentaires relevant des disciplines du traitement du signal, de l’apprentissage artificiel, de l’acoustique et des technologies audio. La méthodologie combine les méthodes statistiques, la modélisation acoustique et l’AA. Le programme scientifique est structuré autour des trois objectifs. Chacun requiert le développement de méthodes de régression reliant des indices extraits des signaux observés et des paramètres acoustiques que l’on cherche à estimer. Chaque objectif appréhende le problème sous un angle différent, c.à.d avec des vecteurs d’entrée et de sortie du système d’apprentissage différents et des hypothèses spécifiques sur les conditions du système. Ces méthodes d’apprentissage nécessitent la création de base de données audio construites à partir de modélisation numérique ou issues d’enregistrements en conditions réelles.

Les résultats scientifiques font l’objet de publications d’articles de journaux ou de conférences relevant des domaines du traitement du signal, de l’acoustique ou de l’audio. Le projet fournit également l’occasion de développer un microphone sphérique d’ordre supérieur. Les bases de données audio créées ou collectées sont mises en accès public. L’intérêt grandissant pour les applications en AA et l’analyse de scène auditive motive l’organisation de deux ateliers qui s’adressent à la communauté scientifique et aux acteurs des domaines applicatifs de la RA. Le volet sur l’identification des HRTFs à partir d’enregistrements binauraux sera valorisé sous forme d’application web permettant à chacun d’accéder à une solution de personnalisation de ses HRTFs.

Olivier Warusfel (INST RECH COORD ACOUSTIQ MUSIQ)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

INRIA NGE Centre de Recherche Inria Nancy - Grand Est
d'Alembert Institut Jean le rond d'Alembert
IRCAM INST RECH COORD ACOUSTIQ MUSIQ

Aide de l'ANR 630 546 euros
Début et durée du projet scientifique : décembre 2019 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.