Apprentissage profond de représentations sensorimotrices multimodales – MeSMRise
Il existe un "décalage fondamental entre les représentations humaines et en IA: alors que les premières sont ancrées dans une expérience sensorimotrice riche, les secondes sont classiquement passives et limitées à quelques modalités comme la vision et le texte" (Hay et al, 2016).
Dans ce projet, nous proposons de nous inspirer de la manière dont les bébés apprennent à explorer leur environnement par des actions qui structurent leur expérience multimodale. En particulier, la théorie des contingences sensorimotrices (CSM) combine dans un cadre cohérent des travaux en neuroscience, psychologie, ... sur la perception et l'apprentissage chez l'humain. Les éléments principaux sont l'apprentissage des CSM définies comme “la structure des règles gouvernant les changements sensoriels induits par les différentes actions motrices” (O'Regan et al, 2001) et la perception active, i.e. "l'exploration par l'organisme de son environnement à travers sa connaissance des CSMs” (Myin et al, 2002). Des modèles implémentant cette théorie sont capables d'apprendre des concepts complexes comme celle de contenant.
Inspiré de la théorie des CSM, l'objectif principal de ce projet est d'étudier comment l'action peut structurer des représentations multimodales apprises par des méthodes auto-supervisées. Cela sera appliqué à des objets en 3D, perçus par la vision et des nuages de points, et manipulés dans des environnements virtuels. En proposant un nouveau paradigme pour l'apprentissage non supervisé de représentations avec fusion de données multimodales, il participera à de nombreuses problématiques de l'axe E.2. Nous visions les propriétés suivantes:
- la généralisation à des environnements et contextes inconnus
- la robustesse, par ex. à l'orientation, au fond, à la forme ... de l'objet
- l'adaptabilité par la capacité du modèle à trouver l'information pertinente automatiquement
- la généricité par l'utilisation d'architectures et principes similaires pour toutes les questions de recherche
Coordination du projet
Mathieu LEFORT (UMR 5205 - LABORATOIRE D'INFORMATIQUE EN IMAGE ET SYSTEMES D'INFORMATION)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
LIRIS UMR 5205 - LABORATOIRE D'INFORMATIQUE EN IMAGE ET SYSTEMES D'INFORMATION
LJK Laboratoire Jean Kuntzmann
IP INSTITUT PASCAL
Aide de l'ANR 511 261 euros
Début et durée du projet scientifique :
mars 2024
- 54 Mois