CE23 - Intelligence Artificielle

Édition d'imgage avec des réseaux génératifs profonds – IDeGeN

Résumé de soumission

Le but de ce projet est d'utiliser les réseaux de neurones génératifs afin d'effectuer de l'édition d'images, et notamment l'édition d'attributs "haut niveau", tels que l'expression ou l'apparence d'un visage. Cela est notammement nécessaire pour l'industrie de la post-production des films. Actuellement, les réseaux génératifs atteignent des résultats de synthèse d'images impressionnants, grâce à des tirages aléatoires dans des espaces "latents", appris sur des données. On cherchera donc à effectuer de l'édition dans ces espaces. Cependant, ceux-ci permettent pas, actuellement, le contrôle fin des attributs nécessaire pour l'édition. Ce projet cherche donc à imposer des propriétés utiles sur les espaces latents, telles qu'une bonne séparation et organisation des attributs. Nous proposerons des algorithmes de projection et navigation dans les espaces latents des modèles génératifs. En particulier, nous nous intéresserons aux propriétés de démêlage (disentanglement en anglais) et de linéarité de ces espaces. Nous chercherons soit à établir nos propres achitectures et fonctions de coût pour créer des espaces latents avec de bonnes propriétés, soit à utiliser a posteriori des modèles puissants existants, et/ou à analyser les heuristiques que ceux-ci utilisent. Nous nous intéressons également au problème de l'édition localisée (dans une image), qui est important pour des artistes numériques. Nous traiterons les défis techniques et scientifiques suivants :
- Création et structuration des espaces latents : comment créer des modèles génératifs avec de espaces latents avec de bonnes propriétés géométriques
- Projection et navigation dans un espace latent d'un modèle génératif dans le but de remplir une tache d'édition
- Comment éditer localement (en termes spatial) une image ?
L'application principale est l'édition d'images photographiques, mais on considère également le cas des images médicales, où l'on cherchera à comprendre ces images médicales par la bias de modèles génératifs et par les espaces latents de ceux-ci. Le projet aura des impacts sur les domaines de la post-production des films, qui coûte très cher et qui représente une tache extrêmement laborieuse, et l'imagerie médicale, où il est pertinent de proposer des outils d'analyse qui permettent de comparer des états de patients ou de potentiellement prédire certaines pathologies.

Coordination du projet

Alasdair Newson (Laboratoire Traitement et Communication de l'Information)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LTCI Laboratoire Traitement et Communication de l'Information

Aide de l'ANR 266 201 euros
Début et durée du projet scientifique : septembre 2021 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter