CE33 - Interaction, robotique

Apprentissage de bas-niveau d'ineractions robotiques multi-modales avec plusieurs personnes – ML3RI

ML3RI

L'interaction robotique entre plusieurs personnes dans la nature (c'est-à-dire sans contrainte et en utilisant uniquement les ressources du robot) est aujourd'hui irréalisable en raison de l'absence de modèles de perception et de prise de décision appropriés. En effet, les compétences robotiques actuelles sont dérivées de techniques d'apprentissage automatique fonctionnant dans des environnements contraints.

Compréhension des interactions multi-modales multi-personnes -- manque de données.

Outre la lutte commune due à la crise sanitaire, et le fait que toutes nos réunions se déroulaient à travers un écran, limitant ainsi l'interaction et rendant la compréhension plus difficile, nous étions fortement limités par le fait que nous ne pouvions pas enregistrer de données dans notre laboratoire. Cela a rendu impossible T3.1 (collecte de données préliminaires), et nous avons dû faire preuve de créativité et utiliser des ensembles de données disponibles en ligne pour nos besoins. T3.1 est remplacé par l'utilisation de données disponibles en ligne.

Parce que la capacité de comprendre et de réagir à des indices comportementaux de bas niveau est cruciale pour la communication autonome des robots, nous proposons de développer de nouveaux modèles d'apprentissage de bas niveau multimodaux et multi-personnes pour l'interaction des robots (ML3RI). Nous explorerons des méthodes combinant la flexibilité des modèles probabilistes avec la robustesse et la performance des architectures neuronales profondes. Étant donné que l'entraînement de ces modèles nécessite de grands ensembles de données annotées, nous développerons des techniques de génération de données multimodales, réduisant ainsi la quantité requise de données réelles. Des efforts supplémentaires seront déployés pour développer des démonstrateurs fonctionnant sur des plateformes robotiques mobiles afin d'évaluer nos méthodes en dehors du laboratoire.

Nous avons travaillé sur diverses tâches de perception robotique, telles que la réidentification de personnes [C3], la reconnaissance de la pose du corps humain [J2,C4] et l'amélioration de la parole [J1, J3, C1, C2, C5, C6, P1]. Nous avons également travaillé à la génération de données interactives [P2] (voir paragraphe ci-dessous). Si certains de ces travaux utilisent des données visuelles [J2, C3, C4] ou auditives [C1, C6, P1], d'autres exploitent la complémentarité des données audio et visuelles [J1, J3, C2, C5]. Cela nous a permis de progresser sur T1.1, T.1.2 et T3.2. Nous avons commencé à travailler sur des modèles hybrides profonds-probabilistes (T1.3) et sur le traitement d'un nombre variable de personnes dans le temps (T1.4). De même, nous avons commencé à étudier l'utilisation de l'apprentissage par renforcement en robotique sociale, pour l'instant en simulation. Des résultats sont attendus dans les mois à venir.

On a publié un article décrivant le formalisme des dynamical variational autoencoders [J4]. Des défis sur comment utiliser cette methodologie pour ML3RI nous attendent.

[J1] Mixture of Inference Networks for VAE-based Audio-visual Speech Enhancement Mostafa Sadeghi, Xavier Alameda-Pineda IEEE Transactions on Signal Processing, IEEE, 2021, 69, pp.1899-1909.
[J2] Variational Inference and Learning of Piecewise-linear Dynamical Systems Xavier Alameda-Pineda, Vincent Drouard, Radu Horaud IEEE Transactions on Neural Networks and Learning Systems, IEEE, 2021.
[J3] Audio-Visual Speech Enhancement Using Conditional Variational
Auto-Encoders Mostafa Sadeghi, Simon Leglaive, Xavier Alameda-Pineda, Laurent Girin, Radu Horaud IEEE/ACM Transactions on Audio, Speech and Language Processing, Institute of Electrical and Electronics Engineers, 2020, 28, pp.1788-1800.
[J4] Laurent Girin, Simon Leglaive, Xiaoyu Bie, Julien Diard, Thomas Hueber and Xavier Alameda-Pineda (2021),
«Dynamical Variational Autoencoders: A Comprehensive Review«,
Foundations and Trends in Machine Learning: Vol. 15: No. 1-2, pp 1-175.

[C1] A Benchmark of Dynamical Variational Autoencoders applied to
Speech Spectrogram Modeling Xiaoyu Bie, Laurent Girin, Simon
Leglaive, Thomas Hueber, Xavier Alameda-Pineda Interspeech,
Aug 2021, Brno, Czech Republic.
[C2] Switching Variational Auto-Encoders for Noise-Agnostic Audio-
visual Speech Enhancement Mostafa Sadeghi, Xavier Alameda-
Pineda ICASSP 2021 - IEEE International Conference on
Acoustics, Speech and Signal Processing, Jun 2021, Toronto,
Canada. pp.1-5
[C3] CANU-ReID: A Conditional Adversarial Network for Unsupervised
person Re-IDentification Guillaume Delorme, Yihong Xu,
Stéphane Lathuilière, Radu Horaud, Xavier Alameda-Pineda ICPR
2020 - 25th International Conference on Pattern Recognition,
Jan 2021, Milano, Italy. pp.1-8
[C4] PI-Net: Pose Interacting Network for Multi-Person Monocular 3D
Pose Estimation Wen Guo, Enric Corona, Francesc Moreno-
Noguer, Xavier Alameda-Pineda WACV 2021 - IEEE Winter
Conference on Applications of Computer vision, Jan 2021,
Waikoloa, United States. pp.1-11
[C5] Robust Unsupervised Audio-visual Speech Enhancement Using a
Mixture of Variational Autoencoders Mostafa Sadeghi, Xavier
Alameda-Pineda IEEE International Conference on Acoustics,
Speech and Signal Processing, May 2020, Barcelona, Spain.
[C6] A Recurrent Variational Autoencoder for Speech Enhancement
Simon Leglaive, Xavier Alameda-Pineda, Laurent Girin, Radu
Horaud ICASSP 2020 - IEEE International Conference on
Acoustics, Speech and Signal Processing, May 2020,
Barcelone, Spain. pp.1-7.

Les interactions humans-robot dans le monde réel (uniquement avec les ressources du robot) est aujourd'hui irréalisable, à cause de l'absence de méthodes automatiques de perception et de prise de décision adaptées. En effet, les compétences actuelles des robots découlent de techniques d’apprentissage automatique qui fonctionnent dans les laboratoires. Parce que la capacité de comprendre et de réagir aux signaux de bas niveau est cruciale pour la communication des robots, nous proposons de développer de nouveaux modèles d’apprentissage multi-modal multi-personnes de bas niveau pour l’interaction robotique (ML3RI en anglais). Nous explorerons des combinaisons de modèles probabilistes avec de réseaux de neurones profonds, qui nécessitent de vastes ensembles de données annotés. Nous développerons des techniques de génération de données multimodales, réduisant ainsi le nombre de données réelles requises. Des efforts supplémentaires permetront d'évaluer nos méthodes en dehors du laboratoire.

Afin d'attaindre ces objectifs, nous allons implementer le project en quatre paquest de travail, avec plusieurs tâches et deliverables. Chaqu'un des trois premiers WP est dédiée à un des défis scientifiques ennoncés (perception robuste, comportement pertinent et génération des données). Le quatrième WP a pour objectif l'évaluation des méthodes developpes et leurs implementations à l'aide de two plates-formes robotiques Nao et Pepper. L'integration de logiciel sera faite dans le cadre de ROS. Étant donné le fait que Nao et Pepper ont des interfaces qui se ressemble, nous n'aurons pas besoin de developer des modules de logiciel en doublon. Le principal impacte de ML3RI, est celui de developper des nouvelles méthodes et algorithsm d'apprentissage, et de les tester dans de conditions realistes. ML3RI promeut la recherche reproductible et le logiciel ouvert.

L'ANR JCJC permetra à Xavier d'implementer son projet scientific et d'intensifier ses efforrts de co-direction du travail scientifique. Dans l'avenir prochain, Xavier soumettra une ERC StG et son HdR.

Coordination du projet

Alameda-Pineda XAVIER (Centre de Recherche Inria Grenoble - Rhône-Alpes)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Inria GRA Centre de Recherche Inria Grenoble - Rhône-Alpes

Aide de l'ANR 293 328 euros
Début et durée du projet scientifique : février 2019 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter