CE23 - Intelligence artificielle et science des données 2025

Apprentissage profond informé par l'acoustique pour le traitement de la parole dans les antennes de microphones distribuées – AWESOME

Résumé de soumission

Au cours de la décennie écoulée, l'apprentissage profond a largement transformé le traitement des signaux audio, résolvant des tâches comme le rehaussement de la parole enregistrée dans des environnements avec un bruit modéré et peu de réverbération. Cependant, l'application de ces techniques dans des conditions réelles plus difficiles reste un défi majeur, car de grandes quantités de données correspondant aux cas d'utilisation visés sont souvent nécessaires. La création de tels jeux de données implique de concilier des exigences comme la quantité, la diversité et le réalisme tout en étant contraints par des limites aussi bien en termes de ressources informatiques que de temps d'enregistrement. Bien que des approches comme la simulation acoustique, l'augmentation des données et l'apprentissage par transfert aient été explorées, la combinaison optimale de ces méthodes pour améliorer la généralisation aux conditions réelles reste mal comprise. Ce défi est particulièrement important pour des scènes en intérieur avec des microphones distribués, aux positions inconnues et variables. Ce projet vise à développer et évaluer de nouvelles méthodes en intégrant des connaissances géométriques et acoustiques, la modélisation physique et l'apprentissage profond, avec un accent sur l'applicabilité dans des conditions acoustiques difficiles. Une attention particulière sera portée aux propriétés acoustiques des sources sonores, des microphones et des surfaces réfléchissantes, un aspect souvent négligé. Les avancées bénéficieront à des applications telles que les aides auditives, les systèmes de visioconférence et les enceintes intelligentes, tout en améliorant la compréhension scientifique de l'équilibre entre modèles physiques et approches orientées données dans le traitement audio. Le succès du projet reposera sur la complémentarité des trois partenaires, experts en apprentissage profond, modélisation acoustique, traitement des antennes distribuées et acquisition de données audio.

Romain SERIZEL (INSTITUT NATIONAL DE LA RECHERCHE EN INFORMATIQUE ET AUTOMATIQUE)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LORIA INSTITUT NATIONAL DE LA RECHERCHE EN INFORMATIQUE ET AUTOMATIQUE
Carl von Ossietzky University of Oldenburg
INSTITUT NATIONAL DE LA RECHERCHE EN INFORMATIQUE ET AUTOMATIQUE

Aide de l'ANR 350 601 euros
Début et durée du projet scientifique : octobre 2025 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.