Apprentissage par renforcement neuro-incrémental à partir de préférences humaines – NeuRL
Dans un avenir proche, les agents intelligents seront omniprésents dans notre vie quotidienne, remplaçant ou assistant les humains dans une variété de tâches. L'apprentissage par renforcement (AR) permet d'apprendre de telles tâches de prise de décision séquentielle à partir de données. L'AR a connu plusieurs succès, notamment dans le domaine des jeux, quand il a été combiné avec des réseaux de neurones profonds. Bien qu’impressionnants, ces résultats ont nécessité de larges équipes de recherche, adaptant les algorithmes d'AR à chaque tâche. Par contraste, nous espérons que l'agent intelligent du futur résoudra ces problèmes de décision à la volée avec, tout au plus, l’aide d'experts de la tâche en question, pas d'experts en AR. Le cas d'utilisation étudié dans cette proposition est celui d'une IA gérant une ferme pendant une saison de récolte, qui s’appuie sur des travaux antérieurs de notre équipe pour développer des environnements d’AR de haute qualité pour l'agriculture. La particularité de notre cas est la personnalisation de la tâche aux préférences de chaque agriculteur. Les méthodes actuelles nécessitent un expert en AR pour définir le problème, notamment la fonction de récompense, et pour surmonter l'instabilité de l’AR. Pour faire face à ces limitations, nous proposons une approche pour combiner les réseaux neuronaux et l’AR qui est nouvelle à la fois dans la morphologie des réseaux utilisés que dans leur fonction, afin de produire des mises à jour plus stables, à forme close. Il en découle aussi un algorithme d’AR basé sur des modèles, essentiel pour éliciter les préférences de l'utilisateur. En effet, l’élicitation de préférences nécessite ici la résolution d'une séquence de problèmes d'AR, ce qui serait inefficace avec les approches sans modèle. Nos contributions seront validées sur les tâches de gestion agricole susmentionnées qui devront être apprises uniquement à partir de retours humains de haut niveau, sans aucune intervention d'experts en AR.
Coordination du projet
Riad AKROUR (Centre Inria de l'Université de Lille)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
Inria Centre Inria de l'Université de Lille
Aide de l'ANR 292 376 euros
Début et durée du projet scientifique :
février 2024
- 48 Mois