Apprentissage par renforcement épistémique – epiRL
Le projet EpiRL vise à étudier comment combiner la planification épistémique et l'apprentissage par renforcement (RL), en proposant de nouveaux algorithmes efficaces, adaptatifs et capables de calculer des décisions reposant sur la théorie de la connaissance et de la croyance. Nous attendons de cette approche qu'une efficacité dans la génération de plans épistémiques et de décisions en RL soit explicable. De plus, les algorithmes d'EpiRL seront testés et évalués au sein d'une application réelle qui exploite des agents autonomes.
Ce projet vise à apporter une solution aux faiblesses de la planification épistémique et du RL.
D'une part, les algorithmes de planification épistémique son coûteux, ne s'adaptent pas à l'environnement et les concepts sont fabriqués à la main et ne sont pas appris. D'autre part, dans l'apprentissage par renforcement, les agents s'adaptent à leur environnement mais sont incapables de raisonner sur les croyances des autres agents. Nos algorithmes vont combiner les avantages des deux domaines. 
Nous proposons quatre forfaits :
1. Étudier les représentations d'un état
2. Développer des algorithmes RL
3. Étudier les représentations d'une politique
4. Validation de nos algorithmes avec notre partenaire industriel DAVI. En particulier, nous visons à développer un chatbot dont le cas d'utilisation s'appliquera aux problématiques environnementales.
Coordination du projet
David Baelde (Ecole normale supérieure de Rennes)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
					
						
							 DAVI
						
					
						
							IRIT Centre national de la recherche scientifique
						
					
						
							IRISA Ecole normale supérieure de Rennes
						
					
						
							GREYC Université de Caen Normandie
						
					
						
							ENSL ENS de LYON
						
					
				
				
					Aide de l'ANR 506 310 euros
				
				Début et durée du projet scientifique :
					février 2023
						- 48 Mois