ANR-NSF (Mathématiques et Sciences du numérique) - Appel à projets générique 2022 - NSF Lead Agency

BatVision omnidirectionnelle: Apprendre à naviguer à partir d'enregistrements sonores de téléphones portables – Omni-Batvision

Résumé de soumission

Les progrès récents dans le traitement des signaux audiovisuels permettent d'exploiter de nouvelles informations à partir du son. Les robots en simulation peuvent percevoir les plans d'étage dans les coins, mieux estimer la profondeur ou se diriger vers les alarmes incendie. La perception de la profondeur devant un microphone binaural peut être réalisée à l'aide d'échos, avec des images de caméra synchronisées comme supervision intermodale. Même un rover sur Mars utilise le bruit ambiant pour cartographier les couches souterraines de la planète et les objets jetés dans une boîte en plastique peuvent être reconnus grâce aux sons de cliquetis. Malgré le potentiel du son en tant que modalité de détection, il n'est pas clair dans quelle mesure les méthodes peuvent être améliorées, si tant est qu'elles le soient, pour résoudre des tâches utiles dans des environnements réels.L'objectif de ce projet est la reconstruction de scènes 3D en temps réel à partir de données audiovisuelles pour une navigation sûre. Si les capteurs des smartphones modernes fournissent suffisamment d'informations spatiales, nous envisageons que les personnes malvoyantes puissent les utiliser comme une canne intelligente. L'audio arrive spécifiquement de 360° et se propage dans les coins. Le téléphone pourrait fournir des plans détaillés, intérieurs et extérieurs, des chemins praticables et des entités en mouvement. Un dispositif de capteurs équipé d'un microphone binaural, d'un haut-parleur et d'une caméra stéréo RVB-D sera construit pour recueillir des données audiovisuelles lors de la traversée de différents environnements. Un smartphone connecté enregistrera la même scène en temps synchronisé. Le haut-parleur émettra des signaux pour exploiter le principe d'écholocation, mais une partie des données ne contiendra que des sons naturels. Comme point de départ, la méthode de prédiction de profondeur des auteurs sera adaptée pour prédire la scène en tant que carte d'occupation en utilisant la supervision multimodale. Les modèles 3D hors ligne fournissent une supervision dans les régions non vues. Une preuve de concept dont la qualité de reconstruction permet une navigation sans collision est considérée comme un succès.

Les résultats du projet permettraient d'offrir des aides à la navigation aux personnes malvoyantes. Les informations audio peuvent compléter les capteurs visuels défaillants, par exemple pour les robots de recherche et de sauvetage ou les pompiers, qui ont besoin de s'orienter dans la fumée et l'obscurité. Les voitures à l'écoute pourraient entendre les piétons dans les virages. Des cartes audio-visuelles superposées enregistrées par des essaims, par exemple dans un parc, pourraient même fournir une carte publique en 3D. En fin de compte, cela pourrait compléter les solutions LiDAR mobiles en champ proche pour permettre à chacun de devenir un créateur de contenu 3D.

Sascha Hornauer (ARMINES - Association pour la Recherche et le Développement des Méthodes et Processus Industriels)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

ARMINES ARMINES - Association pour la Recherche et le Développement des Méthodes et Processus Industriels
ICSI International Computer Science Institute

Aide de l'ANR 527 886 euros
Début et durée du projet scientifique : octobre 2022 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.