CONTINT - Contenus numériques et interactions

Analyse sémantique visuelle et reconstruction 3D sémantisée d’environnements urbains – SEMAPOLIS

Analyse visuelle sémantique et reconstruction 3D sémantisée d’environnements urbains

La disponibilité croissante d'images et de données 3D de villes laisse imaginer nombre d'usages. Ces applications requièrent toutefois des informations riches de plus haut niveau : sémantiques (nature et relations des objets observés) et/ou géométriques (modèles 3D). Mais les techniques pour les produire restent limitées, contraintes par le nombre réduit de données annotées et les spécificités des objets urbains à reconstruire en 3D. Semapolis a contribué à lever ces verrous scientifiques.

Découvrir automatiquement des informations d’ordre sémantique dans des images et des données 3D urbaines ouvre une large gamme d’applications

Les maquettes numériques de villes ont des applications dans de nombreux domaines : construction et rénovation (avec des enjeux énergétiques sur l’isolation, le solaire, l’éclairage, etc.), trafic et navigation (impact acoustique, GPS, etc.), santé et environnement (diffusion de polluants, microclimats, etc.), gestion des risques (vieillissement des structures, inondations, etc.), divertissement (jeux vidéo, films), éducation (tourisme virtuel), architecture (étude de styles), etc.<br /><br />Cependant, les maquettes existantes sont le plus souvent grossières car faites à la main, ou bien constituées de lourds maillages, texturés simplement à partir d'images. Cela exclut la plupart des usages qui nécessitent des analyses visuelles, des simulations ou des optimisations, et ne laisse comme applications principales que la navigation virtuelle indicative et les études d’ordre qualitatif. Même ainsi, géométrie et texture sont souvent fausses quand des zones sont invisibles (ex. occultations par un arbre, un véhicule) ou réfléchissantes (ex. vitres, carrosseries).<br /><br />Le projet Semapolis a eu pour objectif de développer des techniques avancées d'analyse d'images et d'apprentissage pour la sémantisation, la navigation et la reconstruction enrichie de modèles 3D d'environnements urbains, avec un rendu visuel amélioré.

Pour réaliser ses visées applicatives, le projet Semapolis devait développer de nouvelles méthodes d'apprentissage automatique à grande échelle et faiblement supervisé : avec des données visuelles en grande quantité mais possiblement brutes, c.-à-d. pas ou peu annotées, car leur annotation est souvent indisponible car coûteuse.

Or Semapolis a été imaginé en 2012-2013 sur la base de méthodes soit bien établies à cette époque mais offrant encore d’intéressantes perspectives d’amélioration (ex. modèles graphiques), soit encore relativement nouvelles et prometteuses (ex. rendu à base d’images, analyse syntaxique avec des grammaires de forme via des techniques d’apprentissage par renforcement).

Mais les succès et l’essor de l’apprentissage profond qui ont suivi la conception initiale du projet nous ont conduit à recomposer significativement la carte des outils méthodologiques pertinents, sans altérer toutefois la finalité applicative du projet. Ainsi, rapidement, les chercheurs de Semapolis se sont mis à explorer également des techniques générales de deep learning et leurs usages pour l’analyse et la reconstruction urbaines sémantisées.

En ce qui concerne la navigation visuelle dans des environnements virtuels 3D, le projet est resté axé sur le rendu basé sur l'image (IBR), en particulier avec l'utilisation d'informations sémantiques inférées riches.

Jeux de données : Nous avons créé des jeux de données à grande échelle d'images de rues géoréférencées faiblement annotées et un jeu de données de façades Art déco sémantisées.

Reconstruction 3D : Nous avons développé des méthodes pour combiner des données hétérogènes et multi-résolution afin de reconstruire des modèles 3D plus précis, et amélioré la reconstruction avec primitives de haut niveau et pour des surfaces peu ou pas texturées.

Segmentation sémantique de bas niveau : Nous avons développé des méthodes de segmentation sémantique niveau pixel pour images et vidéos, appliquées aux paysages urbains.

Apprendre, avec peu ou pas de supervision : Nous avons développé des méthodes d'apprentissage avec peu ou pas de supervision, et d’adaptation de domaine pour données synthétiques, avec une meilleure compréhension des CNN.

Correspondance et alignement 2D-2D/3D : Nous avons développé des méthodes d'extraction de traits caractéristiques, appliquées à la reconnaissance de lieux et pouvant opérer sur des représentations non photoréalistes.

Segmentation sémantique structurée : Nous avons développé une méthode pour apprendre des grammaires des formes à partir d'exemples, étudié l'inférence avec plusieurs variantes originales de grammaires, et développé un système de modélisation procédurale.

Détection d'objets : Nous avons développé des méthodes pour apprendre des styles architecturaux corrélés avec les dates de construction de bâtiments, avec identification de différences visuelles dans le temps, pour détecter les objets avec précision dans des images et vidéos, et pour aligner objets et modèles 3D.

Rendu basé sur l'image : Nous avons développé une technique de rendu en temps réel sur appareil mobile utilisant synthèse de profondeur et warping/blending, une approche multi-vues pour le remplissage de trous dans des images, et des méthodes pour gérer les surfaces réfléchissantes (ex. vitres, carrosseries) et pour traiter les intérieurs et les structures fines.

Grâce aux techniques innovantes développées dans le projet, il est possible d’entrainer un système sur des données visuelles urbaines, y compris si elles sont peu annotées, pour qu’il sache identifier des objets de nature architecturale (ex. fenêtres, portes, balcons...) ou du paysage urbain. Même en l’absence d’annotations (apprentissage non supervisé), des éléments de n’importe quel paysage urbain peuvent être mis en relation.

Cette information d’ordre sémantique est un ingrédient essentiel qui préfigure la production de maquettes 3D urbaines sémantisées, et qui, dès maintenant (startup en création), améliore aussi grandement la qualité de la navigation dans des villes virtuelles, avec des rendus visuels spécifiques aux objets urbains. Une startup sur ce sujet est en cours de création à Inria Sophia Antipolis. Ces travaux servent également de base à un grand projet open source concernant le rendu basé sur l'image ; la première version va être rendue publique début 2020.

Les résultats de Semapolis ont également ouvert de nouvelles perspectives de recherche, contribuant à plusieurs autres projets financés en cours de réalisation, en particulier l'ERC Advanced grant de George Drettakis pour son projet FUNGRAPH (une nouvelle fondation pour l'infographie avec une incertitude inhérente, 2017-2022), la subvention ANR Jeune Chercheur (JCJC) de Mathieu Aubry pour son projet EnHerit (Exploitation des bases d'images patrimoniales, 2018-2022, ANR-17-CE23-0008) et la subvention ANR du projet BIOM Modélisation intérieur/extérieur de bâtiments, 2018-2022, ANR-17-CE23-0003).

Sur le plan académique, Semapolis est un immense succès en termes de publications : 39 articles, principalement dans des revues (IJCV, PAMI, TOG...) et des conférences (CVPR, ICCV, SIG-GRAPH....) du plus haut niveau, dont 19 articles avec des collaborateurs internationaux et 22 articles avec du code et des données publiquement disponibles (à partir du site web du projet project.inria.fr/semapolis). Plusieurs de ces articles ont eu un impact important sur la communauté scientifique : 300-600 citations pour les 4 articles les plus cités (source Google Scholar, septembre 2019). En outre, un grand projet open source sur le rendu basé sur l'image pour une navigation virtuelle de haute qualité, s'appuyant sur les travaux du projet, devrait être rendue publique début 2020.

D'un point de vue industriel, Acute3D a considérablement amélioré sa technologie de reconstruction 3D, notamment en ce qui concerne la fusion de données hétérogènes (lidar, images aériennes, images de rue).

Le but du projet SEMAPOLIS est de développer des techniques avancées d'analyse d'images et d'apprentissage à grande échelle pour la sémantisation de photos urbaines et la construction de modèles 3D sémantiques d'environnements urbains, avec un rendu visuel amélioré.

Les modèles 3D géométriques de villes ont une large gamme d'applications comme la navigation ou les décors virtuels réalistes pour les jeux vidéo et les films. Des acteurs comme Google, Microsoft et Apple ont commencé à produire de telles données. Cependant, elles ne consistent qu'en de simples surfaces, texturées à partir d'images. Cela limite leur usage dans les études d'urbanisme et l'industrie de la construction, excluant des applications comme le diagnostic ou la simulation. En outre, géométrie et texture sont souvent fausses quand des parties sont invisibles ou discontinues, comme lors d'occlusions par un arbre, une voiture ou un réverbère, objets omniprésents dans les scènes urbaines.

Nous voulons aller plus loin en produisant des modèles 3D sémantisés, qui identifient des éléments architecturaux tels que fenêtres, murs, toits, portes, etc. Les aprioris sémantiques sur les images analysées nous permettront aussi de reconstruire des géométries et rendus plausibles pour les parties invisibles. La sémantique est utile dans un plus grand nombre de scénarios à l'échelle du bâtiment ou de la ville : diagnostic et simulation dans des projets de rénovation, étude d'impact précise de l'ombre portée sur des fenêtres, déploiement de panneaux solaires, etc. La navigation dans des villes virtuelles peut aussi être amélioré, avec des rendus visuels spécifiques aux objets identifiés. Les modèles peuvent également être compactés en encodant la répétition (p. ex. fenêtres) et en substituant aux textures d'origine des textures données par la sémantique ; cela permet une transmission moins coûteuse et plus rapide dans la faible bande passante de réseaux mobiles, et un stockage efficace sur GPS embarqué.

L'objectif principal du projet est de faire des avancées majeures dans les domaines suivants :

- Apprentissage pour la reconnaissance d'objets : Nous développerons des algorithmes innovants d'apprentissage à grande échelle pour reconnaître divers styles et éléments architecturaux dans des images. Ces méthodes seront capables d'exploiter de très grandes quantités de données mais ne nécessiteront que peu d'annotations manuelles (apprentissage faiblement supervisé).

- Apprentissage de grammaires de formes : Nous développerons des techniques pour apprendre des grammaires de formes stochastiques à partir d'exemples. Les grammaires apprises permettront de s'adapter à la grande variété de types de bâtiments sans toujours recourir à des experts. Grâce aux paramètres appris, les analyses seront aussi plus rapides, plus précises, plus robustes.

- Analyse grammaticale : Nous développerons de nouvelles méthodes de minimisation d'énergie sur la base d'indices visuels pour maîtriser le nombre exponentiel d'analyses. Les propriétés visuelles statistiques précédemment apprises seront agrégées pour évaluer avec précision les analyses.

- Reconstruction 3D sémantique : Nous développerons des techniques robustes originales pour synchroniser une reconstruction 3D multi-vues avec l'analyse sémantique, garantissant ainsi des alignement de toits ou de fenêtres à l'angle de façades.

- Rendu visuel et sémantique : Nous développerons des méthodes de rendu à base d'images qui s'appuieront sur la sémantique de la scène pour améliorer la qualité graphique : estimation de profondeur, fusion adaptative, remplissage de trous et complétion de régions.

Pour valider notre recherche, nous conduirons des expériences sur des données concernant Paris (grande quantité de panoramas, images plus denses et géoréférencées à plus petite échelle, plan cadastral, dates de construction).

Coordination du projet

Renaud Marlet (Laboratoire d'Informatique Gaspard Monge) – renaud.marlet@enpc.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Inria Paris - Rocquencourt Institut national de recherche en informatique et automatique
Inria Sophia-Antipolis Institut National de la Recherche en Informatique et en Automatique- Centre de Recherche Sophia Antipolis-Méditerranée- REVES
GREYC Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen
Acute3D Acute3D
LIGM Laboratoire d'Informatique Gaspard Monge

Aide de l'ANR 791 399 euros
Début et durée du projet scientifique : septembre 2013 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter