CE23 - Intelligence artificielle 2019

Apprendre à synthétiser des mouvements humains 3D dynamiques – 3DMOVE

3DMOVE: Apprendre à synthétiser des mouvements humains 3D dynamiques

Il est récemment devenu possible de capturer des nuages de points 3D variant dans le temps à haute résolution spatiale et temporelle, ce qui permet notamment des acquisitions de haute qualité du mouvement humain. Les premiers outils pour traiter et analyser les données de manière robuste et automatique sont en cours de développement. Ils sont essentiels à l'apprentissage de modèles génératifs du mouvement humain. L'objectif de 3DMOVE est de calculer des modèles génératifs de haute qualité.

Synthétiser des mouvements humains de haute qualité

Il est récemment devenu possible de capturer des nuages de points 3D variant dans le temps à haute résolution spatiale et temporelle. Cela permet notamment des acquisitions de haute qualité de corps humains en mouvement. Cependant, il manque encore des outils pour traiter et analyser ces données de manière robuste et automatique. De tels outils sont essentiels à l'apprentissage de modèles génératifs de mouvement humain dynamique, qui peuvent à leur tour être exploités pour créer des séquences de mouvement humain synthétiques plausibles. Cela a le potentiel d'influencer les applications de réalité virtuelle telles que les vestiaires virtuels ou les simulations de foule, où une synthèse plausible peut aider à créer du réalisme. L'objectif principal de 3DMOVE est de calculer automatiquement des modèles génératifs de haute qualité à partir d'une base de données de séquences de mouvements 3D denses et brutes pour les humains.

Apprendre et évaluer des modèles génératifs de données de mouvement

L'idée clé pour s'attaquer au projet 3DMOVE est d'exploiter des séquences de mouvement 4D d'humains qui sont capturées de manière dense dans l'espace et le temps pour apprendre des modèles génératifs appropriés à l'aide de techniques récentes d'apprentissage automatique. Cela permet notamment d'apprendre des représentations adaptées de basse dimension des séquences de mouvement qui peuvent découpler différents facteurs de variation (tels que la forme du corps et le mouvement).

Pour montrer la vertu des modèles génératifs développés, ils seront appliqués pour synthétiser de nouveaux mouvements en transférant des animations entre personnages. Comme il est bien connu que les méthodes d'évaluation des séquences de mouvements humains synthétisées basées sur des erreurs géométriques sont limitées, 3DMOVE mettra un accent particulier sur l'évaluation des résultats à l'aide d'études perceptives.

Résultats

Nous avons développé une méthode pour générer un mouvement du corps humain 4D temporellement et spatialement dense. D'une part, la modélisation générative a été largement étudiée en tant que problème d'ajustement statique par période de temps pour les modèles 3D denses tels que les représentations en maillage, où l'aspect temporel est omis du modèle génératif. D'autre part, des modèles génératifs temporels existent pour des modèles humains épars tels que des représentations de capture basées sur des marqueurs, mais n'ont pas, à notre connaissance, été étendus à des formes 3D denses. Nous avons proposé de combler cet écart avec un cadre génératif basé sur un encodeur automatique, qui code la morphologie, la locomotion globale, y compris la translation et la rotation, et le mouvement temporel en tant que vecteur d'espace latent unique. Pour évaluer ses capacités de généralisation et de factorisation, nous avons entraîné notre modèle sur un sous-ensemble de locomotion cyclique d'AMASS [1], en tirant parti des modèles de surface dense qu'il fournit pour un ensemble étendu de captures de mouvement. Nos résultats valident la capacité du modèle à reconstruire des séquences 4D de locomotions humaines dans une limite d'erreur faible, et la signification de l'interpolation de l'espace latent entre des vecteurs latents représentant différentes séquences et types de locomotion. Nous illustrons également les avantages de l'approche pour la prédiction du mouvement humain 4D des images futures à partir des images initiales de la locomotion humaine, montrant les capacités prometteuses de notre modèle à apprendre des caractéristiques spatio-temporelles réalistes du mouvement humain. Nous montrons que notre modèle permet de compléter les données à la fois spatialement et temporellement éparses.

Perspectives

Les travaux futurs incluent l'extension de ce résultat à des mouvements plus généraux en apprenant à segmenter automatiquement les mouvements pendant l'entraînement. En particulier, étant donné un ensemble de séquences arbitraires de mouvements humains, l'idée est d'apprendre simultanément une segmentation et une représentation.

Nous prévoyons en outre d'évaluer les modèles génératifs avec des études d'utilisateurs, car l'évaluation des mouvements humains synthétiques à l'aide de mesures purement géométriques est connue d'être problématique. Les mouvements humains synthétiques peuvent être numériquement proches de ceux capturés tout en étant hautement irréalistes pour les observateurs humains; ce phénomène est connu sous le nom «uncanny valley«. Notre plan pour évaluer les séquences de mouvement synthétiques tirées de notre modèle génératif est d'effectuer des études d'utilisateurs.

Productions scientifiques et brevets

Mathieu Marsot, Stefanie Wuhrer, Jean-Sébastien Franco, Stephane Durocher. Multi-frame sequence generator of 4D human body motion. Research report 2021. hal.archives-ouvertes.fr/hal-03250297v2

Résumé de soumission

Il est possible de capturer des nuages de points 3D variant dans le temps à une résolution spatiale et temporelle élevée. Cela permet des acquisitions de haute qualité de corps et de visages humains en mouvement. Cependant, il manque des outils pour traiter et analyser ces données de manière robuste et automatique. Ces outils sont essentiels à l'apprentissage de modèles génératifs du mouvement humain, qui peuvent être exploités pour créer des séquences de mouvements synthétiques. Le développement de tels outils est difficile en raison de la grande variabilité de la forme et du mouvement humains et du bruit d’acquisition. L'objectif principal de 3DMOVE est de calculer automatiquement des modèles génératifs de haute qualité à partir d'une base de données de séquences de mouvements 3D denses et brutes pour les corps et les visages humains. Pour atteindre cet objectif, 3DMOVE utilisera des techniques d'apprentissage profond.

Stefanie Wuhrer (Centre de Recherche Inria Grenoble - Rhône-Alpes)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Inria GRA Centre de Recherche Inria Grenoble - Rhône-Alpes

Aide de l'ANR 303 264 euros
Début et durée du projet scientifique : février 2020 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.