CE33 - Interaction, robotique 2020

MUlti-party perceptually-active situated DIALog for human-roBOT interaction – muDialBot

µdialbot, vers l’interaction humain-robot multimodale pro-active.

Les robots viennent à votre rencontre pour vous assister

Enjeu de la pro-activité en interaction humain-robot, déplacer la perception sociale du robot du simple outil au véritable partenaire autonome d’interaction

Depuis plusieurs décennies, l’intérêt pour les robots capables de coopérer et de communiquer avec les personnes croît et les robots d’assistance sociale occupent une place importante en gérontologie, notamment pendant les phases non médicales du parcours hospitalier. Celles-ci peuvent entraîner des temps d’attente de plusieurs heures. Les patients s’ennuient, deviennent anxieux, s’irritent et peuvent même se montrer agressifs envers les professionnels de santé. Ces derniers, de leur côté, peuvent éprouver frustration et stress mental face à l’insatisfaction des patients et de leurs proches. Les robots d’assistance sociale peuvent aider le personnel en fournissant aux patients les informations attendues tout en les divertissant durant l’attente. Les conditions actuelles du HRI supposent une volonté explicite et préalable des utilisateurs d'initier les interactions. Il s'agit en général d'une entité sous la forme d'une borne ou d'un robot statique vers lequel les utilisateurs doivent d'abord se diriger avant d'être pris en compte. Cette configuration place donc la charge de l'initiative presque entièrement sur l'humain, qui doit remarquer l'agent artificiel, décider d'interagir, puis effectuer une action claire de prise de contact (approche physique, appui sur un bouton, déclenchement vocal...). Cette barrière initiale exclut de fait les personnes hésitantes ou peu familières avec ce type de dispositif. Les capacités proactives du système sont cantonnées à un rôle réactif : il attend d'être sollicité plutôt que d'observer, d'anticiper et de proposer une aide au moment opportun. Ces contraintes influencent la perception sociale du robot, perçu comme un simple outil plutôt que comme un partenaire d'interaction autonome. Cela limite le potentiel du HRI dans des contextes où la dimension sociale, l'engagement spontané ou l'adaptabilité contextuelle sont primordiaux (espaces publics, environnements d'assistance à la personne...). Aussi, la conception centrée sur l'initiative humaine ne tire pas parti des avancées récentes en perception, en modélisation de l'attention ou en compréhension de scène. La perception visuelle demeure principalement cantonnée à l’analyse de scènes en vue de la manipulation d’objets ou du déplacement. De plus, on constate encore très peu d’intégrations effectives de modalités vision+audio dans de telles situations, alors même que ce couplage multimodal doit enrichir la compréhension contextuelle, améliorer la robustesse aux perturbations et ouvrir la voie à des interactions plus naturelles et plus sûres avec l’environnement. En cours de projet, l'état de l'art (notamment des systèmes permettant des échanges verbaux humain-robot) a été bouleversé par l'arrivée des LLMs. Cette évolution technologique a été entrevue par les partenaires spécialisés, mais sa vitesse de mise à disposition en 2023 a impliqué de revoir toute la vision du développement d'un chatbot multi-domaine dans ce nouveau contexte.

Double articulation : estimation des états interactionnels par la perception de l’environnement et apprentissage d’une stratégie d’actions guidée par les événements.

La méthodologie générale du projet s'est décomposée en deux blocs opérationnels : (i) l’estimation des états interactionnels par la perception de l'environnement et (ii) l’apprentissage d’une stratégie d'actions guidée par les événements. Ces deux blocs sont intégrés sur la plate-forme robotique au moyen d’une couche d’abstraction logicielle.

Pour le premier bloc, il s'agit de développer des méthodes et des algorithmes pour extraire des indices HBU à partir de données audio et visuelles. Des méthodes d’extraction améliorées, robustes face à diverses perturbations dans un contexte réél, et capables de fournir une estimation quantitative de la fiabilité des indices extraits ont été conçues. Des algorithmes pour la reconnaissance à longue portée des activités individuelles et de groupe ont été élaborés et testés, ainsi que pour l’estimation à courte portée des expressions faciales individuelles.

Ces éléments ont permis le développement de la capacité d’interaction vocale naturelle du robot. En particulier, un processus décisionnel multimodal a été travaillé, permettant de combiner l’ensemble des observations d’événements verbaux et non verbaux avec des caractéristiques contextuelles afin de définir une stratégie comportementale globale. Cette stratégie, d'abord établie empiriquement, a ensuite été transférée à un LLM agentique, qu'elle soit ensuite principalement apprise in situ, au moyen d’une procédure d’apprentissage en ligne, et conditionnera les schémas d’engagement du robot dans ses diverses situations d’usage (multiparty, face-à-face).

Après une première série d’expériences de type « Wizard of Oz » (WoZ) pour tester les modèles proposés, le système complet a été progressivement introduit dans le véritable contexte clinique en suivant un protocole bien défini et progressif de campagnes d'évaluation itératives : (i) locales "« jouées" », pour intégrer progressivement les modules logiciels développés dans les groupes de travail du projet et mener des expériences d’interaction en laboratoire, (ii) réelles avec les utilisateurs finaux à Broca, pour évaluer l’architecture globale dans le contexte clinique, d'abord avec de petits groupes de patients avant les expériences finales dans la salle d’attente.

Ces campagnes d'expériences ont permis le perfectionnement des modules et l'augmentation de la complexité des scénarios (nombre d'utilisateurs, types d'échanges, environnement...). Les données collectées sont mises à disposition du consortium et à l'extérieur dans les conditions décrites dans le PGD.

Résultats

Développement d'un prototype complet et opérationnel, intégrant toutes les fonctions prévues.

Au regard du premier objectif de nos travaux, le développement d'un système d'interaction multimodal proactif dans le cadre d'une interaction humain-robot, nos contributions majeures sont :

(i) Un modèle de fusion temporelle audio-visuelle pour la diarisation de locuteurs multi-utilisateurs, basé sur une modélisation de la fusion des indices audio et visuels par coïncidence spatiale de localisation des sources visuelles et sonores. Modèle léger au niveau calcultatoire et présentant une capacité d’adaptation aux conditions acoustiques sans phase d’entraînement ;

(ii) La définition du concept de l'IAB pour la HRI, ou croyance d’acceptation de l’interaction, qui répond à la question "Quelles sont les chances que mon interaction soit acceptée par l’utilisateur ciblé". L'analyse révèle que l'orientation du regard est déterminante pour la prédiction de l'IAB ;

(iii) Une approche basée sur l'apprentissage profond pour la reconnaissance des émotions en contexte (CAER) (les personnes, les objets, le lieu...). Approche très innovante car « ascendante », qui traite simultanément toutes les personnes présentes, et non séquentiellement. Une version open-source ROS a permis l'intégration du modèle dans le framework µDialBot dédié au robot Pepper ;

(iv) Une approche agentique basée sur un LLM remplace efficacement la chaîne de décision modulaire traditionnelle pour le contrôle du robot. En unifiant gestion du dialogue, planification des actions et communication non verbale dans une seule politique guidée par un prompt, elle réduit le coût et la complexité de conception, tout en maintenant ou dépassant les performances de l’ancien système ;

(v) Une architecture HRI multimodale proactive, FlowAct, avec un flux continu de perception et des sous-systèmes d’action modulaires. Basée sur 3 étapes, la perception, la représentation, la décision, fonctionnant à l’aide de sous-modules organisés par des contrôleurs ;

(vi) L'implémentation du système d'interaction complet en ROS et sur le robot social Pepper.

Les contributions concernant le deuxième objectif majeur du projet qui consiste à tester et évaluer cette architecture dans un scénario de salle d'attente d'hôpital sont :

(i) Une expérience d'exploration contrôlée, d'HRI proactive qui simule les comportements dans une salle d'attente d'hôpital. Incluant une évaluation de l'expérience utilisateur via le questionnaire UMUX, qui indique une expérience utilisateur satisfaisante, et une vérification du fonctionnement temps réel de l'implémentation de FlowAct ;

(ii) La conduite de tests du dispositif dans un environnement réel, à l'hôpital Broca, ainsi qu'un retour sur l'utilisabilité et l'acceptation du dispositif par les patients de l'hôpital à travers les questionnaires SUS et AES. Le score d'expérience utilisateur indique toutefois un niveau modéré d’utilisabilité.

Perspectives

Ce projet a mis en lumière plusieurs pistes de développement pour améliorer la conception de robots multimodaux proactifs dédiés à l’interaction humain‑robot dans des environnements complexes, tels que les hôpitaux. Les défis rencontrés au cours de ce travail soulignent la nécessité de repenser certains paradigmes d’interaction et ouvrent la voie à des innovations prometteuses, notamment via l’intégration de modèles de langage de grande taille afin d’améliorer la compréhension, le raisonnement et la communication avec les utilisateurs.

En intégrant des mécanismes d’engagement basés sur les avancées récentes en intelligence artificielle, il devient possible de concevoir des agents plus réactifs, adaptatifs et sensibles au contexte. De tels systèmes pourront non seulement enrichir la qualité et la fluidité des interactions, mais aussi mieux répondre aux exigences pratiques et méthodologiques liées à la mise en œuvre de la proactivité, considérée ici comme un concept complexe impliquant l'anticipation, la prise d’initiative et l’ajustement continu aux besoins des utilisateurs et aux contraintes de l’environnement.

La principale source de perspectives actuelles des recherches menées dans µdialbot repose sur le recours aux LLM multimodaux. En effet, l'intégration multimodale au sein des LLM permettra de favoriser des mécanismes de prise de décision intégrés (end-to-end) combinant ainsi l'analyse perceptive initiale avec le choix d'une ou des actions les plus adaptées selon les tâches affectées aux modèles. Ce travail a été initié lors de nos travaux sur les LLM agentiques et se poursuit dans le cadre d'une thèse financée par la Chaire LIAvignon "Voix, locuteur, parole", débutée en septembre 2025.

Il apparaît aussi conséquent de poursuivre le renforcement d'une base de développement standardisée et inter-opérable, telle que ROS2, pour favoriser l'émergence d'une plateforme partageable pour le HRI pro-actif, indépendante des supports, distribuée et applicable à de nouvelles générations de robots humanoïdes. De telles approches sont en évaluation, notamment dans le cadre du projet BPI Logie IA, en collaboration avec Enchanted Tools pour le développement de leur robot Mirokaï.

L’identification des principaux verrous actuels au déploiement de cette technologie permet de mettre en évidence les contraintes techniques, organisationnelles, économiques, réglementaires ou encore sociétales qui freinent aujourd’hui son adoption à grande échelle. Cette démarche contribue ainsi à sécuriser le déploiement de la technologie, et à favoriser une appropriation progressive par l’ensemble des acteurs concernés. Plusieurs dépôts de projet sont en cours par le consortium, qui reste très motivé par la poursuite de ces recherches et pleinement engagé dans le développement de nouvelles collaborations, ainsi que dans l’exploration de pistes innovantes afin de consolider et d’élargir les résultats déjà obtenus.

Résumé de soumission

Dans muDialBot, notre ambition est d'incorporer pro-activement des traits de comportements humains dans la communication parlée humain-robot. Nous projetons d'atteindre une nouvelle étape de l'exploitation de l'information riche fournie par les flux de données audio et visuelles venant des humains. En particulier en extraire des événements verbaux et non-verbaux devra permettre d'accroître les capacités de décision des robots afin de gérer les tours de parole plus naturellement et aussi de pouvoir basculer d'interactions de groupe à des dialogues en face-à-face selon la situation.

Récemment on a vu croître l'intérêt pour les robots compagnons capable d'assister les individus dans leur vie quotidienne et de communiquer efficacement avec eux. Ces robots sont perçus comme des entités sociales et leur pertinence pour la santé et le bien-être psychologique a été mise en avant dans des études. Les patients, leurs familles et les professionels de santé pourront mieux apprécier le potentiel de ces robots, dans la mesure où certaines limites seront rapidement affranchies, telles leur capacité de mouvement, vision et écoute afin de communiquer naturellement avec les humains, aù-délà de ce que permettent déjà les écrans tactiles et les commandes vocales.

Les résultats scientifiques et technologiques du projet seront implémentés sur un robot social commercial et seront testés et validés avec plusieurs cas d'usage dans le contexte d'une unité d'hôpital de jour. Une collecte de données à grande échelle viendra compléter les test in-situ pour nourrir les recherches futures.

Fabrice Lefèvre (Laboratoire d'Informatique d'Avignon)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LIA Laboratoire d'Informatique d'Avignon
LabhC Laboratoire Hubert Curien
INRIA Centre de Recherche Inria Grenoble - Rhône-Alpes - PERCEPTION Team
AP-HP MALADIE D'ALZHEIMER : MARQUEURS GENETIQUES ET VASCULAIRES, NEUROPSYCHOLOGIE
ERM ERM AUTOMATISMES INDUSTRIELS

Aide de l'ANR 648 654 euros
Début et durée du projet scientifique : décembre 2020 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.