CE22 - Sociétés urbaines, territoires, constructions et mobilité

Caméra évènementielle pour la pERception d’oBjEts Rapides autour du véhicule autonomE – CERBERE

CERBERE

CERBERE : Caméra évènementielle pour la perception d'objets rapides autour du véhicule autonome

Contexte et objectifs

Ces dernières années, les recherches et les expérimentations sur le véhicule autonome se sont multipliées, le véhicule autonome étant un des enjeux majeurs de la mobilité de demain. Dans un futur proche, les usagers auront accès à des flottes de véhicules autonomes partagés pouvant être réservés à tout moment via un smartphone, tout en réduisant les risques liés à la conduite humaine, plus de 90% des accidents étant liés à des erreurs humaines. Un des principaux défis technologiques pour le véhicule autonome est la compréhension de son environnement, qui est généralement perçu par des capteurs tels que les lidars, radars et les caméras. L’objectif principal de ce projet est l’exploitation d’un capteur en rupture avec les solutions existantes pour la perception du véhicule autonome : la caméra évènementielle. La caméra évènementielle est un capteur bio-inspiré qui, au lieu de capturer des images statiques - alors que les scènes sont dynamiques - à une fréquence fixe, mesure les changements d’illumination au niveau des pixels et de façon asynchrone. Cette propriété la rende particulièrement intéressante pour le véhicule autonome puisqu’elle peut répondre aux verrous qui subsistent dans les scénarios de conduite autonome : scène avec de hautes dynamiques (sortie de tunnel par exemple), latence et vitesse de détection des obstacles (autres véhicules, piétons), tout en prenant en compte les contraintes de puissance de calcul et de flux de données limités imposées par le véhicule autonome. L’utilisation de caméras évènementielles impose de trouver de nouveaux algorithmes puisque les algorithmes de vision par ordinateur classiques ne sont pas adaptés, les données fournies par la caméra évènementielle étant fondamentalement différentes. Le contexte applicatif (perception pour le véhicule autonome) est radicalement différent des travaux que l’on peut trouver à l’heure actuelle. En effet, la plupart des travaux utilisent une caméra évènementielle mobile dans une scène statique, ou alors une caméra évènementielle statique observant une scène dynamique. Dans ce projet, l’objectif est d’exploiter une caméra embarquée dans le véhicule et observant une scène dynamique. Les évènements générés par la caméra seront donc dus à la fois à son mouvement propre et à celui des objets de la scène, il faudra donc être capable de les dissocier, ce qui reste un challenge à l’heure actuelle. De ce changement de contexte applicatif va découler un certain nombre de nouveaux verrous scientifiques que nous nous attèlerons à lever dans ce projet.

Le projet a développé un ensemble de méthodes exploitant les caméras événementielles pour améliorer la perception dans les scènes de conduite dynamiques. Pour la détection des objets en mouvement, une architecture de fusion RGB–événements, RENet, a été proposée. Elle combine un module d’agrégation temporelle multi-échelle et une calibration bi-directionnelle permettant d’exploiter la haute résolution temporelle des événements. Cette approche améliore nettement la détection dans des situations difficiles, comme la faible luminosité, les variations brusques d’éclairage ou les mouvements rapides.

 

Pour la segmentation des objets mobiles, le modèle EmoFormer adopte une stratégie originale : les événements sont utilisés uniquement pendant l’entraînement, tandis que l’inférence repose exclusivement sur les images RGB. Cette fusion « asymétrique » permet au modèle de bénéficier des propriétés temporelles des événements tout en facilitant son déploiement, sans nécessiter de capteur additionnel en opération.

 

La reconstruction 3D constitue un autre axe majeur. Une première approche géométrique a adapté le Disparity Space Image aux flux événementiels asynchrones, permettant de générer des cartes de profondeur plus denses malgré la nature éparse des données. Une seconde approche repose sur un pipeline complet de suivi et de cartographie événementiels, capable de produire des reconstructions dans des environnements très dynamiques. Enfin, une approche par apprentissage profond, fondée sur une fusion spatio-temporelle via un module Mamba, identifie et agrège les événements les plus pertinents afin d’améliorer la précision et la cohérence temporelle des estimations de profondeur.

 

Pour la reconnaissance d’objets, une méthode de distillation de connaissances a été développée : un modèle RGB sert d’enseignant à un modèle événementiel, qui ne nécessite ensuite que les événements en inférence. Cette stratégie permet d’atteindre un haut niveau de précision même dans des conditions où les images classiques montrent leurs limites.

 

Ces avancées ont été rendues possibles grâce à un système d’acquisition complet ayant permis de créer le jeu de données multimodal SPECTRA, intégrant caméras événementielles, RGB, LiDAR et système GNSS, ainsi qu’à l’extension du dataset DSEC avec de nouvelles annotations dédiées à la détection et à la segmentation d’objets mobiles.

Le projet a produit des résultats significatifs qui renforcent la place des caméras événementielles dans la perception pour les scènes de conduite. Plusieurs contributions méthodologiques majeures ont été obtenues, dont RENet pour la détection d’objets en mouvement, qui démontre une nette amélioration des performances en conditions difficiles grâce à la fusion fine entre événements et images RGB. La segmentation a également bénéficié d’avancées importantes avec EmoFormer, dont la stratégie d’apprentissage multimodal améliore la précision tout en simplifiant l’inférence. En reconstruction 3D, les approches géométriques, événementielles et profondes mises en œuvre ont permis de produire des cartes de profondeur plus denses, plus cohérentes et mieux adaptées à la dynamique des scènes urbaines. La reconnaissance d’objets a été améliorée via une méthode de distillation de connaissances permettant d’exploiter uniquement les événements en inférence sans perte notable de précision. Sur le plan expérimental, le projet a abouti à la création du jeu de données multimodal SPECTRA, aujourd’hui l’un des ensembles les plus complets dédiés à la perception événementielle en conduite, et à l’enrichissement du dataset DSEC avec des annotations inédites pour la détection et la segmentation d’objets mobiles. L’ensemble de ces résultats positionne le projet comme une référence dans l’intégration des capteurs événementiels pour la perception des véhicules autonomes.

L’ensemble des résultats obtenus dans le cadre du projet a fait l’objet de publications scientifiques dans des conférences et revues internationales de haut niveau. Les méthodes, les jeux de données ainsi que les évaluations expérimentales détaillées sont ainsi accessibles au travers de ces travaux, garantissant la diffusion, la transparence et la reproductibilité des contributions du projet.

Les verrous identifiés au cours du projet constituent naturellement autant de pistes pour des travaux futurs, ouvrant la voie à plusieurs prolongements scientifiques et technologiques. Une première perspective consiste à inscrire l’usage de la caméra événementielle dans un contexte plus large de ville intelligente, où ces capteurs seraient déployés non seulement à bord des véhicules, comme dans CERBERE, mais également au sein de l’infrastructure routière.

Par ailleurs, les avancées obtenues dans CERBERE ouvrent la voie à l’exploration de marchés applicatifs au-delà du domaine automobile. Les propriétés uniques des caméras événementielles — haute vitesse, faible latence, robustesse aux conditions difficiles — présentent en effet un intérêt pour la robotique industrielle, les drones autonomes, ainsi que pour les systèmes de surveillance avancée, où la réactivité et la frugalité énergétique sont des critères déterminants.

A venir

Ces dernières années, les recherches et les expérimentations sur le véhicule autonome se sont multipliées, le véhicule autonome étant un des enjeux majeurs de la mobilité de demain. Dans un futur proche, les usagers auront accès à des flottes de véhicules autonomes partagés pouvant être réservés à tout moment via un smartphone, tout en réduisant les risques liés à la conduite humaine, plus de 90% des accidents étant liés à des erreurs humaines.

Un des principaux défis technologiques pour le véhicule autonome est la compréhension de son environnement, qui est généralement perçu par des capteurs tels que les lidars, radars et les caméras. L’objectif principal de ce projet est l’exploitation d’un capteur en rupture avec les solutions existantes pour la perception du véhicule autonome : la caméra évènementielle.

La caméra évènementielle est un capteur bio-inspiré qui, au lieu de capturer des images statiques - alors que les scènes sont dynamiques - à une fréquence fixe, mesure les changements d’illumination au niveau des pixels et de façon asynchrone. Cette propriété la rende particulièrement intéressante pour le véhicule autonome puisqu’elle peut répondre aux verrous qui subsistent dans les scénarios de conduite autonome : scène avec de hautes dynamiques (sortie de tunnel par exemple), latence et vitesse de détection des obstacles (autres véhicules, piétons), tout en prenant en compte les contraintes de puissance de calcul et de flux de données limités imposées par le véhicule autonome.

L’utilisation de caméras évènementielles impose de trouver de nouveaux algorithmes puisque les algorithmes de vision par ordinateur classiques ne sont pas adaptés, les données fournies par la caméra évènementielle étant fondamentalement différentes. Le contexte applicatif (perception pour le véhicule autonome) est radicalement différent des travaux que l’on peut trouver à l’heure actuelle. En effet, la plupart des travaux utilisent une caméra évènementielle mobile dans une scène statique, ou alors une caméra évènementielle statique observant une scène dynamique. Dans ce projet, l’objectif est d’exploiter une caméra embarquée dans le véhicule et observant une scène dynamique. Les évènements générés par la caméra seront donc dus à la fois à son mouvement propre et à celui des objets de la scène, il faudra donc être capable de les dissocier, ce qui reste un challenge à l’heure actuelle. De ce changement de contexte applicatif va découler un certain nombre de nouveaux verrous scientifiques que nous nous attèlerons à lever dans ce projet.

La perception pour le véhicule autonome doit de plus être tri-dimensionnelle pour pouvoir localiser les différentes entités (autres véhicules, motos, cyclistes, piétons) et déterminer s’il y a un danger ou si la situation est normale. C’est pourquoi nous nous intéresserons plus particulièrement dans ce projet à la thématique novatrice de la 3D évènementielle pour le véhicule autonome.
En plus de la détection et de la reconstruction 3D des objets mobiles, une étape de reconnaissance sera également nécessaire afin de permettre au véhicule autonome de prendre la décision la plus adaptée en fonction de la situation. Les approches les plus performantes à l’heure actuelle sur les images classiques sont celles basées sur les CNN (Convolutional Neural Networks). Étant donné la structure des données fournies par la caméra évènementielle, ce type de réseau n’est pas adapté et de nouvelles approches doivent être trouvées.
L’aspect temps-réel de la solution est très important si nous ne voulons pas perdre les avantages de la caméra évènementielle. Une part importante de ce projet sera dédiée à l’Adéquation Algorithme Architecture (AAA) afin que les algorithmes développés puissent être intégrés dans la caméra intelligente proposée par le partenaire industriel de ce projet.

Coordination du projet

Rémi BOUTTEAU (LABORATOIRE D'INFORMATIQUE, DE TRAITEMENT DE L'INFORMATION ET DES SYSTÈMES - EA 4108)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

LITIS LABORATOIRE D'INFORMATIQUE, DE TRAITEMENT DE L'INFORMATION ET DES SYSTÈMES - EA 4108
MIS MODÉLISATION, INFORMATION ET SYSTÈMES - UR UPJV 4290
YUMAIN / YUMAIN
ImViA Imagerie et Vision Artificielle - EA 7535

Aide de l'ANR 656 718 euros
Début et durée du projet scientifique : janvier 2022 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter