CHIST-ERA - 5ème Appel à Projets de l’ERA-NET CHIST-ERA (Call 2014)

Interactive Grounded Language Understanding – IGLU

IGLU - Compréhension du langage intéractive et incarnée

Le but de ce projet est de développer et étudier un agent robotique capable d'acquérir des savoir-faire linguistiques et sensori-moteurs, et selon une approche dans laquelle la croissance de la complexité est contrôlée. Ceci sera réalisé en combinant des techniques de deep reinforcement learning avec des systèmes de dialogue de l'était de l'art.

A) incertitude dans les réseaux neuronaux B) transfert de politiques de simulations vers des robots physiques

A) Afin de faciliter l'apprentissage dans les réseaux de neurones, les réseaux doivent être capables d'évaluer leur incertitude. Une telle mesure n'était pas facilement disponible au début du projet et a été développée et évaluée dans le cadre du projet. B) L'entrainement des robots se fait habituellement dans la simulation, car c'est beaucoup moins cher et plus rapide que l'entraînement d'un robot physique. Très souvent, des problèmes surviennent chaque fois que les politiques apprises sont transférées au système physique. Comme beaucoup de partenaires du projet n'ont pas les mêmes systèmes robotiques disponibles et ont besoin de faire toutes leurs recherches en simulation, nous visons à développer une méthode pour rendre la simulation plus réaliste et plus facile à transférer au robot réel.

A) Lorsque l'entrée est passée plusieurs fois à travers un réseau neuronal habituellement, la sortie est toujours la même. En ajoutant soit un bruit de poisson bien défini aux entrées ou aux couches intermédiaires, la même entrée peut conduire à une distribution différente de sorties. En mesurant cette répartition avec des mesures de l'entropie et l'évolution du taux de type de sortie ou de classification, nous pouvons obtenir une métrique d'incertitude du réseau sur une entrée donnée, même sans connaître l'étiquette réelle de la sortie. B) Le robot physique et une version simulée sont configurés pour explorer l'espace sensorimoteur pour générer un petit ensemble de données, qui est à son tour utilisé pour former un réseau neuronal, qui transfère la sortie du logiciel de simulation vers l'environnement physique. Sur la base de cette transformation, un algorithme d'apprentissage profond de politiques est utilisé pour apprendre le comportement optimal pour quelques scénarios de références. C) Un ensemble de 10 tuteurs humains a été chargé de sélectionner 10 objets dans un ensemble d'objets ménagers quotidiens et de les enseigner de trois manières différentes au robot (en les montrant, en les montrant et en parlant sans les toucher) .

A) Nous avons une méthode de travail avec laquelle nous pouvons établir à la fois si le modèle a été entrainé sur des données données avant et nous avons une méthode qui peut choisir parmi un grand groupe non non-étiqueté de données qui guideraient de manière optimale les progrès de l'apprentissage. Par conséquent, il est possible, par exemple, de choisir des objets intéressants dans une scène et de demander à un tuteur humain de nommer ces objets. B) Il s'agit toujours d'un travail en cours. On s'attend à ce que le projet réduise considérablement le temps nécessaire pour passer à un robot physique, après que le robot a été formé à la simulation. C) L'ensemble de données a été enregistré avec succès et a été publié publiquement par l'Université de Zaragoza, voir ci-dessous (section «Production scientifique et brevets«).

L'entrainement des robots dans la simulation est une nécessité, car il est nettement plus rapide, et ne peut endommager la machine physique. Mais lors du transfert des connaissances acquises au robot physique, des problèmes fréquents surviennent. Ces problèmes peuvent provenir d'une variété de sources, dont le plus important est le bruit, la friction et les effets dynamiques de l'environnement qui ne se reflètent pas dans la simulation ou qui ont des valeurs différentes et provoquent des comportements. Par conséquent, il est généralement nécessaire de passer du temps considérable à ajuster les politiques à la réalité qui ont été apprises dans la simulation. Nous développons une méthode qui peut réduire la quantité d'ajustements requise, en apprenant comment tout environnement de simulation peut être changé en paramètres réalistes de modèles. Par conséquent, les politiques que nous apprenons en fonction de notre simulateur modifié nécessitent seulement des ajustements minimaux pour les faire exécuter la tâche donnée sur le robot réel. À cette fin, nous utilisons des méthodes de pointe pour l'apprentissage en profondeur, car elles offrent une complexité suffisante pour modéliser des environnements très dynamiques.

L'ensemble de données Baxter est déjà public et peut être trouvé à l'adresse robots.unizar.es, où la description et les images sont fournies. Nous avons publié un article sur l'ensemble de données pour NIPS 2016 et un article complet sur l'ensemble de don

Coordinateur du projet

Monsieur Pierre-Yves Oudeyer (INRIA CENTRE DE BORDEAUX SUD OUEST)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

CRIStAL Centre de Recherche en Informatique, Signal et Automatique de Lille
INRIA CENTRE DE BORDEAUX SUD OUEST
University of Mons University of Mons
KTH Royal Institute of Technology KTH Royal Institute of Technology
Universidad de Zaragoza Universidad de Zaragoza
Université de Sherbrooke Université de Sherbrooke

Aide de l'ANR 293 280 euros
Début et durée du projet scientifique : octobre 2015 - 36 Mois

Liens utiles

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter