Predire l'avenir video – VideoPredict
La prédiction du contenu vidéo futur est un problème difficile à impact potentiel élevé sur des applications comme les voitures autonomes et la robotique, mais aussi sur le processus d'apprentissage lui-même, de l'apprentissage auto-supervisé à l'augmentation des données. La plupart des approches existantes utilisent directement l'apprentissage profond pour prédire à partir de séquences observées. Nous proposons plutôt de modéliser les effets de causalité mis en jeu dans les vidéo tout en séparant les facteurs dus au mouvement et au contenu. Cela se traduira par une meilleure prédiction, mais aussi par une compréhension plus structurée du flux vidéo, conduisant à des résultats explicables et interprétables.
Un défi scientifique majeur est d'étendre l'horizon temporel sur lequel le futur contenu vidéo peut être extrapolé avec précision. Les modèles autorégressifs agissant au niveau des pixels mêlent horizons courts et calcul lourds. L'utilisation de variables latentes permet d'atténuer ce problème en apprenant une représentation de faible dimension qui évolue au fil du temps et peut être reprojetée sur l'espace d'entrée si nécessaire. Nous proposons de structurer l'espace latent pour donner une signification physique aux variables correspondantes et d'utiliser les relations de causalité au sein d'une vidéo pour faciliter son extrapolation dans le futur. Ainsi quelques images d'un ballon rebondissant dans un monde newtonien idéalisé devraient suffire à prédire indéfiniment ses mouvements futurs. En pratique, la dynamique du monde réel est bien entendu beaucoup plus complexe. Un autre défi de la prédiction à long terme est la forte non-stationnarité des vidéos, en particulier quand elles sont acquises par une caméra mobile. Par exemple, dans le cas d'un robot ou d'une voiture en mouvement, la caméra peut voir un arrière-plan complètement différent après avoir traversé un carrefour ou être passés devant un bâtiment. Nous proposons de diviser l'horizon temporel en sous-intervalles dont les extrémités sont également apprises afin que l'algorithme de prédiction puisse se concentrer sur les détails pertinents. Dans un premier temps, un simulateur sera utilisé pour synthétiser les données vidéo, et nos algorithmes seront validés par rapport à la vérité terrain disponible dans ce cas. Nous testerons également leur capacité de généralisation en augmentant progressivement la complexité des scènes simulées (en ajoutant des objets, des mouvements plus complexes, etc.) avant de passer à des données réelles. Cela nécessitera de nouvelles techniques pour transférer l'apprentissage de la simulation au monde réel, mais cela nous permettra également d'utiliser des algorithmes efficaces qui exploitent des données synthétiques abondantes et disponibles gratuitement et s'adaptent rapidement aux statistiques du monde réel a partir d'un petit nombre d'échantillons.
Ce projet rassemble des experts en vision artificielle d'Inria Paris et des experts en apprentissage statistique de l'Université Tuebingen et du MPI Tuebingen. Compte tenu des atouts complémentaires des PIs, il conduira à des avancées scientifiques significatives en matière de prédiction vidéo mais aussi de briques essentielles du processus d'apprentissage, telles que l'auto-supervision et l'augmentation des données. La modélisation des effets de causalité et la séparation des facteurs de mouvement et d'apparence conduiront à des résultats explicables et interprétables, et éventuellement à des systèmes d'IA plus fiables dans des applications comme les voitures autonomes et la robotique.
Coordination du projet
Cordelia SCHMID (Cordelia Schmid)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
Cordelia Schmid
Universitaet Tuebingen
Aide de l'ANR 207 088 euros
Début et durée du projet scientifique :
septembre 2021
- 48 Mois