Blanc – Accords bilatéraux 2013 - SIMI 3 - Blanc – Accords bilatéraux 2013 - SIMI 3 - Matériels et logiciels pour les systèmes et les communications

Optimisation perceptive des représentations audio temps-fréquence et codage – POTION

Résumé de soumission

En traitement du signal, le développement de représentations optimales des signaux demeure une problématique fondamentale. Une représentation optimale doit permettre d'extraire l'information utile du signal et de la décrire avec un minimum de données. En traitement du signal audio et plus particulièrement en codage, dont le but est de minimiser la taille des données à transmettre et/ou à stocker, il est souhaitable qu'une représentation optimale prenne en compte la perception auditive et permette la reconstruction du signal avec un minimum de distorsion audible. Ces dernières décennies, beaucoup d’études psychoacoustiques se sont intéressées aux effets de masquage auditif, une propriété importante de la perception auditive. Le masquage se définit comme l’élévation du seuil de détection d'une source sonore en présence d'une autre source. Les résultats de ces études ont permis le développement de modèles de masquage soit temporel, soit fréquentiel. Pour prendre en compte les effets de masquage temps-fréquence (t-f) dans certains codeurs audio, des modèles de masquage t-f ont été construits à partir d'une combinaison linéaire des modèles existants. Or, nous avons récemment conduit des études psychoacoustiques sur le masquage t-f dont les résultats ont permis de révéler l'inexactitude de ces modèles. Par ailleurs, ces nouvelles données de masquage t-f constituent un résultat fondamental pour prendre en compte les effets de masquage dans les représentations t-f des sons. Les représentations t-f sont des outils standards en traitement du signal audio. Cependant, le développement d'une représentation mathématique t-f adaptée à la perception auditive et parfaitement inversible demeure une problématique majeure. Le projet POTION aborde donc les questions suivantes : (1) Jusqu'à quel point est-il possible d'obtenir une représentation t-f des sons qui soit adaptée à la perception auditive (i.e., la plus proche possible de « ce que l'on voit est ce que l'on entend ») et parfaitement inversible ? L'obtention d'une telle représentation est d'un intérêt fondamental d'une part pour la modélisation des effets complexes de masquage dans le plan t-f et la compréhension des mécanismes auditifs impliqués dans le traitement des sons. D'autre part, pour la plupart des applications audio impliquant des procédés d'analyse-synthèse des sons. (2) Est-il possible d’améliorer les codeurs audio actuels en considérant une approche t-f ? Pour compresser les fichiers audio, les codeurs actuels tels que le MP3 décomposent les sons en segments temporels de durée variable puis appliquent une transformée fréquentielle et un modèle de masquage fréquentiel indépendamment sur chaque segment. Ce modèle psychoacoustique permet de déterminer la sous-quantification des coefficients de la transformée dans chaque segment. Ainsi, la plupart des codeurs actuels suivent une approche uniquement fréquentielle. L'association d'une transformée t-f optimale et adaptée à la perception à un modèle de masquage t-f dans un codeur audio est donc fortement susceptible d’améliorer les performances des systèmes actuels. Traiter de façon exhaustive ces deux questions nécessite une très forte interaction pluridisciplinaire associant, outre l’expertise liée aux codeurs audio, les domaines des mathématiques, du traitement du signal non-stationnaire et de la psychoacoustique. Le consortium réuni autour du projet POTION rassemble l’ensemble de ces compétences, permettant ainsi d’aborder le problème de façon formelle et originale. Il s'appuie sur une collaboration entre le Laboratoire de Mécanique et d'Acoustique (LMA-CNRS, France) et l'Acoustics Research Institue (ARI, Autriche).

Coordination du projet

Olivier Derrien (CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE_DELEGATION PROVENCE ET CORSE_Laboratoire de Mécanique et d'Acoustique)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

ARI Acoustics Research Institute
CNRS DR12_LMA CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE_DELEGATION PROVENCE ET CORSE_Laboratoire de Mécanique et d'Acoustique

Aide de l'ANR 169 381 euros
Début et durée du projet scientifique : février 2014 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter