DS0705 - Fondements du numérique

Inpainting de données audio manquantes – MAD

Reconstruction de données audio manquantes (MAD)

Inpainting audio : reconstruire les parties manquantes dans les sons. <br />Le projet MAD (2014-2018) est dédié aux problèmes de reconstruction de données audio manquantes

Un cadre générique pour de multiples applications de reconstruction via des modélisations et des techniques avancées.

L'inpainting audio est un cadre récent et générique pour reconstruire des parties manquantes dans les sons ou dans leurs représentations : restauration de vieux enregistrement, désaturation, retouches de spectrogrammes et autres modifications peuvent ainsi être réalisées à l'aide d'outils de traitement du signal et d'apprentissage automatique. Suite à une preuve de concept proposée en 2012, le projet MAD a pour objectif de proposer des travaux de recherche fondamentale sur la modélisation des sons et de développer de nouvelles approches pour l'inpainting audio. Il s'agit notamment de proposer des techniques avancées pour les situations où des trous plus ou moins grands sont présents directement dans le signal sonore d'une part, et de poser les bases de l'inpainting dans un domaine de représentation, où ce sont par exemple des coefficients temps-fréquence qui viennent à manquer. Le projet vise également à faire mûrir le concept récent d'inpainting audio en élargissant le spectre de ses applications et en valorisant largement les résultats obtenus.

Les techniques d'inpainting audio s'appuient sur les parties observées pour reconstruire les portions manquantes. Les principales méthodes développées dans le projet modélisent les données en les décomposant dans des dictionnaires de formes élémentaires (approches parcimonieuses ; factorisation en matrices non-négatives, NMF) et reconstruisent les sons en essayant de préserver leurs caractéristiques intrinsèques telles que les phases des composantes oscillatoires. D'autres structures propres aux sons ont permis d'enrichir ces modèles, tels que l'auto-similitude dans les signaux de musique ou de parole (contenus similaires dans les différents canaux, variations lentes, répétitions de motifs élémentaires). Il a également été possible d'aborder les problèmes d'inpainting conjointement à des problèmes de séparation de sources et de compression, en utilisant pleinement ces mêmes modèles. D'un point de vue méthodologique, au-delà de ses diverses applications et en y faisant abstraction, l'inpainting audio offre en outre un cadre approprié pour tester et valider la pertinence d'une modélisation et d'algorithmes d'estimations : il permet d'évaluer dans quelle mesure le modèle estimé sur une observation partielle reste valide sur les parties manquantes prédites.

Le projet MAD a permis de développer le concept récent d'inpainting audio selon plusieurs axes : un axe scientifique avec une grande variété de travaux (avancées en declipping audio, modélisations multicanales et structurées, inpainting de spectrogramme, inpainting de phase caractérisation de matrices temps-fréquence complexes) ; un axe de dynamique collective de recherche (nouvelles collaborations nationales et internationales, rencontres autour de l'inpainting audio) ; un axe logiciel avec le développement de skmad-suite, ensemble de packages Python pour l'inpainting audio.

De notre point de vue, la principale perspective du projet réside dans l'inpainting temps-fréquence, vaste domaine à explorer et pour lequel le projet a proposé des travaux en termes d'inpainting de spectrogramme et de phase. Le principal défi reste de modéliser conjointement amplitudes et phases dans le plan temps-fréquence en développant des approches conjuguant traitement du signal, apprentissage automatique et optimisation.

Une vingtaine de publications sont issues du projet MAD, pour moitié en collaboration entre plusieurs partenaires nationaux et internationaux. L'ensemble de la publication scientifique ainsi que les codes et données produits sont accessibles librement sur

Le concept d'inpainting audio, récemment proposé par le coordinateur et ses coauteurs, est une rupture conceptuelle en traitement du signal audio, unifiant dans un même cadre les problèmes de données audio manquantes tels que la suppression de clics, la restauration de CD abîmés, le declipping, la reconstruction pour la perte de paquets, la reconstruction de source dans le domaine temps-fréquence et l'extension de spectre. Alors que ces tâches ont été étudiées séparément par le passé, la formulation unifiée d'inpainting audio est une abstraction prometteuse afin de factoriser les principales difficultés partagées par ces tâches, de fournir des méthodes dépassant les performances de l'état de l'art sur les tâches existantes et d'aborder de nouveaux problèmes où la reconstruction de données manquantes a été un défi trop difficile jusqu'ici. Le projet MAD développe l'inpainting audio pour toute tâche impliquant des données audio manquantes.

Les principaux objectifs sont : a) le déploiement du concept d'inpainting audio à travers la communauté scientifique via la proposition de nouvelles approches, via l'étude de nouveaux problèmes et via la création et l'animation d'un réseau scientifique dédié ; b) le lancement de travaux novateurs pour l'inpainting temps-fréquence, c'est-à-dire la reconstruction de coefficients manquants dans un domaine transformé ; d) le renforcement du concept d'inpainting audio et des techniques associées en développant des connexions avec l'apprentissage automatique.

Le projet établit des relations fortes entre traitement du signal et apprentissage automatique. Elles ne consistent pas seulement à appliquer les techniques d'apprentissage à des signaux mais vise aussi à reformuler les problèmes de traitement de signal du point de vue de l'apprentissage et à intégrer la dimension computatiomnelle sous forme de compromis coût/précision dans les algorithmes. Le projet établit également des liens entre traitement des sons et des images. Il implique des interactions fortes entre théorie et applications avec des relations top/down aussi bien que bottom/up. Ces aspects originaux se retrouvent dans la composition de l'équipe et visent à fournir des approches puissantes pour des applications réelles.

La proposition MAD est soumise dans le cadre du programme ANR JCJC sous la direction de Valentin Emiya et constitue le plus vaste projet que celui-ci ait coordonné. Afin de couvrir ses objectifs ambitieux et variés, MAD implique une équipe étendue, composée de onze membres, rassemblant une solide expérience de recherche théorique et finalisée, académique et industrielle, en traitement du signal et apprentissage automatique. Sept membres de l'équipe sont localisés sur le même site, les quatre membres restants étant répartis sur trois autres sites, dont deux membres de Technicolor.

Coordinateur du projet

Monsieur Valentin Emiya (Laboratoire d'Informatique Fondamentale de Marseille)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LIF Laboratoire d'Informatique Fondamentale de Marseille

Aide de l'ANR 198 938 euros
Début et durée du projet scientifique : septembre 2014 - 36 Mois

Liens utiles