CE48 - Fondements du numérique: informatique, automatique, traitement du signal 2020

Attaque de problèmes difficiles en audio par des approches inverses non-linéaires économes en données – DENISE

DENISE: Attaque de problèmes difficiles en audio par méthodes inverses non-linéaires efficaces en données

Le traitement du signal audio est durablement transformé par l'exceptionnel succès des méthodes d'apprentissage profond. Celles-ci souffrent cependant de limites connues: difficulté d'interprétation, spécificité aux tâches, besoins importants en données et calculs. DENISE vise à y répondre par de nouveaux outils efficaces, génériques et interprétables basés sur les méthodes inverses non-linéaires. Les applications visées sont l'inpainting audio et l'estimation de paramètres acoustiques.

Enjeux et objectifs

Le paradigme de l'apprentissage automatique, et en particulier les méthodologies d'apprentissage profond, ont profondément et durablement transformé le domaine du traitement des signaux audio, grâce à leur remarquable capacité à approximer des fonctions non linéaires complexes à partir d'ensembles de données d'apprentissage suffisamment volumineux. Cependant, ces performances s'accompagnent d'un certain nombre de limites connues : difficulté d'interprétation, absence de garanties théoriques, spécificité des tâches, faible capacité de généralisation hors distribution et exigences élevées en termes de calcul et de données. Ce dernier point augmente le coût financier et l'empreinte écologique du développement de ces méthodes, des laboratoires de recherche à la production, et soulève la question des catégories sonores sous-représentées, qui pourraient être laissées pour compte dans les technologies audio.<br /><br />Dans ce contexte, le postulat central de DENISE est qu’un certain nombre de sous-problèmes clés en audio peuvent être résolus sans aucun apprentissage, grâce aux récentes avancées théoriques et méthodologiques dans le domaine des problèmes inverses non linéaires, qui sont restées largement méconnues de la communauté des chercheurs en audio. Son objectif principal est de développer des méthodes inverses non linéaires novatrices et largement applicables pour résoudre des problèmes complexes de traitement des signaux audio de manière efficace en termes de données, avec les trois objectifs suivants :<br />1. Développer de nouveaux outils de traitement des signaux audio non linéaires offrant des résultats garantis et interprétables, pouvant être appliqués de manière générique à une variété de tâches ;<br />2. Permettre un développement écologique et rentable des méthodes de traitement audio en réduisant considérablement les besoins en données pour deux problèmes clés ;<br />3. Acquérir des connaissances scientifiques permettant de déterminer où placer les limites entre les solutions basées sur l'apprentissage et les solutions analytiques au sein de nouveaux cadres hybrides de traitement des signaux audio.<br /><br />Concrètement, DENISE se concentre sur deux tâches identifiées comme peu explorées, émergentes et difficiles. Le work package (WP) 1 porte sur la reconstruction audio, c'est-à-dire la manière de restaurer des échantillons ou des segments entièrement manquants dans un signal audio. Le WP2 se concentre sur le traitement multicanal «tenant compte des échos«, c'est-à-dire traiter les enregistrements provenant d'une antennes de microphones en présence de réflecteurs acoustiques inconnues. Notre hypothèse de recherche centrale est que les méthodes inverses non linéaires peuvent grandement bénéficier à ces deux tâches, en donnant naissance à de nouvelles techniques surpassant l'état de l'art tout en étant moins gourmandes en données et plus généralisables.

1. Reconstruction audio tenant compte de la phase
Le premier WP s'est concentré sur l'«inpainting«, c'est-à-dire reconstruire une portion de signal audio complètement manquante. À cette fin, nous avons étudié un nouveau type de prior: l'accès au spectre d'amplitude du signal concerné. Nous tirons ainsi parti du fait que les spectres des sons naturels, tels que la parole et la musique, sont fortement structurés et redondants dans le temps, et donc plus faciles à prédire et interpoler. Grâce à une nouvelle formulation, nous avons établi un lien entre ce problème et le domaine de la «récupération de phase«, pour lequel de nombreuses méthodes inverses non linéaires ont été développées au fil des ans, qui n'avaient pas encore été transposées au traitement audio. Le projet DENISE a exploité ce lien pour obtenir un nouveau résultat théorique et développer de nouveaux algorithmes.

2. Traitement du signal tenant compte des échos
Le deuxième WP s'est concentré sur l'estimation des amplitudes et des temps de propagation des premières réflexions acoustiques provenant d'une source sonore enregistrée par un réseau de microphones, également appelées «échos«. Il s'agit d'une tâche fondamentale, sous-tendant des application allant de l'amélioration des signaux au diagnostic acoustique en passant par la réalité augmentée. Alors que le plan initial était d'étudier principalement cette tâche pour un signal source inconnu (ex: parole), nous avons décidé de nous concentrer plutôt sur le cas où un signal source contrôlé est disponible.

2.a. Des réponses impulsionnelles de salle (RIR) aux sources d'image
En utilisant une source contrôlée et plusieurs micros, il est possible de mesurer des RIR multicanales, c'est-à-dire les signaux reçus correspondant à une source émettant une impulsion temporelle parfaite. Grâce à une nouvelle formulation combinant l'équation d'onde, le modèle des «sources-images« et un modèle d'échantillonnage microphonique passe-bas, nous avons relié le problème inverse difficile de la localisation des sources-images (associées aux réflexions) à partir de RIRs au domaine de la super-résolution, et en particulier à l'estimation de mesures parcimonieuses. Nous avons ainsi pu adapter l'algorithme Sliding Frank-Wolfe à ce problème.

2.b. Des sources-images aux paramètres d'une pièce rectangulaire
Nous avons ensuite développé une nouvelle méthode géométrique permettant de récupérer les 18 paramètres d’entrée de la simulation acoustique d'une pièce rectangulaire à partir d’un nuage de points de sources-images issu de la contribution précédente. Il s’agit de la position 3D de la source, des 3 dimensions de la pièce, de la translation et de l’orientation de la pièce (6 degrés de liberté), et les coefficients d'absorption des 6 surfaces.

2.c. Au delà des rectangles
Enfin, dans une approche complètement différente, nous avons combiné optimisation de forme et méthode des solutions fondamentales pour s'attaquer aux pièces de formes polygonales plus générales.

1. Audio inpainting à l'aide des amplitudes de Fourier
1.a. Un résultat de presque-unicité
Nous avons démontré que si les amplitudes de Fourier (discretes) sont disponibles et que le nombre d'échantillons manquants consécutifs est strictement inférieur à un tiers de la longueur totale du signal, un signal aléatoire peut être reconstruit exactement avec une probabilité de 1 en résolvant la formulation par récupération de phase proposée.

1.b. Ajustement par les moindres carrés du spectre d'amplitude
À l'aide d'un schéma de minimisation alternatif initialisé par une relaxation convexe de notre formulation, des expériences computationnelles approfondies sur des signaux vocaux révèlent que lorsque les spectres d'amplitude sont disponibles avec une précision suffisante (rapport signal/bruit > 10 dB), on obtient de meilleures performances de reconstruction qu'en utilisant un a priori de parcimonie plus conventionnelle sur les spectres, plus conventionnel dans l'état de l'art. D'autres expériences ont montré que, dans le cas sans bruit, cette approche permet de récupérer de manière quasi-exacte plus de 80 % des signaux de test tant que 30 % des échantillons ou moins sont manquants.

2. Récupération des paramètres d'une salle rectangulaire
En combinant les techniques de super-résolution et les techniques géométriques développées dans le WP2, des expériences simulées approfondies ont révélé qu'une récupération quasi-exacte des 18 paramètres de pièce considérés à partir d'une réponse impulsionnelle de salle est obtenue pour un réseau de microphones sphériques à 32 éléments de 8,4 cm de large et un taux d'échantillonnage de 16 kHz, en utilisant des paramètres d'entrée entièrement aléatoires dans des pièces de dimensions comprises entre 2x2x2 et 10x10x5 mètres. Les erreurs d'estimation tendent vers zéro lorsque la taille du réseau et le taux d'échantillonnage augmentent. Ces résultats sont strictement limités aux données simulées et aux pièces rectangulaires. Néanmoins, ils constituent, à notre connaissance, la première démonstration algorithmique que le problème inverse notoirement difficile consistant à «entendre la forme d'une pièce« est en principe entièrement résoluble par notre approche sur une large gamme de configurations.

L'objectif principal du projet DENISE était d'apporter des contributions méthodologiques fondamentales au domaine du traitement des signaux audio en s'attaquant à différents sous-problèmes liés à l'audio, grâce aux récentes avancées théoriques et méthodologiques dans le domaine des problèmes inverses non linéaires. Grâce à quatre publications dans des revues de renommée internationale et à deux autres en cours de préparation, cet objectif a été largement atteint. En particulier, des progrès significatifs ont été réalisés dans le développement de nouvelles méthodes précises et généralisables pour la reconstruction audio et l'analyse des réflecteurs acoustiques à partir de réponses impulsionnelles de salle, ainsi que dans la compréhension théorique de ces problèmes. Ces travaux ont ouvert un certain nombre de pistes de recherche prometteuses, notamment les travaux du WP2, auxquels la plupart des ressources du projet ont été consacrées.

Bien que les résultats obtenus dans le WP2 soient prometteurs, notamment grâce à leur potentiel de restitution complète des paramètres d'une salle, la méthode ne peut pas s'appliquer à des mesures RIR réelles, car le modèle sous-jacent suppose des échos acoustiques précoces idéalisés en forme de pics, alors que ceux mesurés sont déformés par les réponses en directivité et en fréquence de sources et microphones imparfaits. Dans un travail complémentaire (2026), nous avons proposé Real2Sim diffusion, un cadre permettant de concilier cette divergence. Nous avons entraîné un modèle de diffusion Schrödinger-bridge afin de traduire les RIR générées par un simulateur réaliste en RIR générées par un simulateur simplifié. Une fois entraîné, le modèle peut traduire des RIR réelles mesurées en équivalents simplifiés et canoniques compatibles avec les méthodes inverses basées sur la physique développée dans DENISE. Nous l'avons démontré en localisant correctement des dizaines de sources d'image d'ordre allant jusqu'à 5 à partir de la partie initiale de RIR réels à 32 canaux.

Ces résultats ouvrent la voie à une nouvelle approche, fondée sur les données, pour combler le fossé entre les mesures et les méthodes inverses basées sur la physique développées au cours du projet DENISE. Ils permettront de développer de nombreuses applications suscitant un vif intérêt industriel, notamment le diagnostic acoustique des pièces, l'acquisition et l'étalonnage audio spatial, ainsi que l'amélioration de la parole tenant compte de l'acoustique. Une collaboration récente avec la société française Trinnov ainsi que le projet récemment lancé ANR-PRC AWESOME, s'appuiera directement sur les fondements posés par DENISE pour relever ces nouveaux défis.

=== Publications du projet ===
Les recherches du projet DENISE ont conduits à la publication d'articles dans 3 journaux internationaux et une conférence internationale à comité de lecture.
[1] T. Sprunck, A. Deleforge, Y. Privat, and C. Foy, “Gridless 3D recovery of image sources from room
impulse responses,” IEEE Signal Processing Letters, vol. 29, pp. 2427–2431, 2022.
[2] L. Bahrman, M. Krémé, P. Magron, and A. Deleforge, “Signal inpainting from fourier magnitudes,”
in 31st European Signal Processing Conference (EUSIPCO), IEEE, 2023, pp. 116–120.
[3] T. Sprunck, A. Deleforge, Y. Privat, and C. Foy, “Fully reversing the shoebox image source method:
From impulse responses to room parameters,” IEEE Transactions on Audio, Speech and Language
Processing, vol. 33, pp. 1023–1033, 2025.
[4] A. Deleforge, C. Foy, Y. Privat, and T. Sprunck, “Hearing the shape of a cuboid room using sparse
measure recovery,” Inverse Problems, vol. 41, no. 9, p. 095 002, Sep. 2025.

=== Publications planifiées ===
Les membres du projets DENISE travail actuellement à la publication de 2 articles basées sur les découvertes du projet dans des journaux internationaux
[5] A. Deleforge, C. Foy, A. Lorrain, Y. Privat, and T. Sprunck, “From sound to shape: polygonal room reconstruction via shape optimization” submitted journal article, 2026.
[6] M. Krémé, P. Magron, and A. Deleforge, “Magnitude-informed signal inpainting,” Journal article in preparation, 2026.

DENISE vise à apporter des contributions méthodologiques fondamentales dans le domaine du traitement du signal audio. Ses promesses sont des économies de données et des gains de performance qui, à long terme, sous-tendent de forts avantages économiques et écologiques pour le domaine applicatif des technologies audio, connaissant une croissance très rapide.

L'état actuel des choses est une utilisation généralisée des méthodes d'apprentissage profond à travers tous les sous-domaines du traitement du signal audio, avec beaucoup de succès. Cela se justifie par leur remarquable capacité à approcher des fonctions non-linéaires arbitraires, à partir du moment où des jeux de données suffisamment larges sont disponibles pour l'apprentissage.

Le principe central de DENISE, en revanche, est qu'un certain nombre de sous-problèmes clés dans le domaine de l'audio peuvent être abordés sans aucun apprentissage grâce à de récentes percées théoriques et méthodologiques dans le domaine des problèmes inverses non-linéaires. Ces avancées sont restées largement inaperçues dans la communauté de recherche audio jusqu'à présent. Des efforts de recherche fondamentale seront déployés pour exploiter pleinement le potentiel de ces découvertes dans deux applications émergentes et difficiles : l'inpainting audio, c'est à dire la reconstruction d'échantillons complètement manquants, et le traitement multicanal basé sur les échos acoustiques.

Loin de renoncer à la puissance de l'apprentissage automatique, le projet DENISE préconise le développement d'approches hybrides qui exploitent pleinement le potentiel des solutions tant analytiques qu'apprises, en plaçant la "frugalité en données" en son cœur.

Coordination du projet

Antoine Deleforge (Centre de Recherche Inria Nancy - Grand Est)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

INRIA NGE Centre de Recherche Inria Nancy - Grand Est

Aide de l'ANR 210 336 euros
Début et durée du projet scientifique : mars 2021 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter