CE23 - Intelligence artificielle

Planification et Apprentissage pour Agir dans des Systèmes Multi-Agents – plasma

Planification et Apprentissage pour Agir dans des Systèmes Multi-Agents

L'idée principale présentée dans cette proposition est qu'il est possible de réduire un problème de prise de décision multi-agent à un jeu stochastique totalement observable, qui est résolu en utilisant des algorithmes génériques basés sur les avancées récentes en Intelligence Artificielle. Nous nous concentrons sur les méthodes génériques avec des garanties théoriques car elles présentent un intérêt particulier pour les systèmes critiques de sécurité qui peuvent affecter des vies humaines.

ALGORITHMES DE PLANIFICATION POUR LES POSGs

WP1 : ALGORITHMES DE PLANIFICATION POUR LES MDPS CONTINUS WP2 : ALGORITHMES DE PLANIFICATION POUR LES JEUX STOCHASTIQUES WP3 : DES JEUX COMPLEXES AUX JEUX PLUS SIMPLES WP4 : APPRENTISSAGE PAR RENFORCEMENT MULTI-AGENT

Methodes

- Dynamic programming
- Reinforcement Learning
- Deep Reinforcement Learning

Résultats

1. On continuous-state MDPs w/ hierarchical information
2. Solving Dec-POMDPs as Sequential-Move Continuous-State Multi-Agent MDPs
3. On Lipschitz-continuity of e-optimal value-fn. of zs-POSGs
4. On Lipschitz + convex-concave structure of e-optimal value-fn. for zs-POSGs
5. Planning algorithm for zs-SGs
6. Deep RL algorithm for MAS
7. Planning algorithm for Dec-POMDPs as MILPs
8. SDM'Studio C++ API

Perspectives

- Nouvelle théorie pour la résolution des zs-POSGs
- Nouveau paradigm de résolution des POSGs: planification séquentielle pour la prise de décision simultanée et décentralisée
- Une nouvelle API C++ pour la résolution des POSGs

Productions scientifiques et brevets

[1] Y. Xie, J. Dibangoye and O. Buffet. Optimally Solving Two-Agent Decentralized POMDPs Under One-Sided Information Sharing. In: Proceedings of the 37th Inter- national Conference on Machine Learning. Ed. by H. D. III and A. Singh. Vol. 119. Proceedings of Machine Learning Research. PMLR, 2020, pp. 10473–10482.

[2] O. Buffet, J. Dibangoye, A. Delage, A. Saffidine and V. Thomas. On Bellman’s Optimality Principle for zs- POSGs. CoRR abs/2006.16395 (2020).

[3] O. Buffet, J. S. Dibangoye, A. Delage and V. Thomas. Sur le principe d’optimalité de Bellman pour les zs- POSG. In: Actes Journées Francophones sur la Plani- fication, la Décision et l’Apprentissage pour la conduite de systèmes (JFPDA 2020). 2020.

[4] A. Delage, O. Buffet and J. S. Dibangoye. HSVI pour zs-POSG usant de propriétés de convexité, concavité, et Lipschitz-continuité. In: Actes Journées Francophones sur la Planification, la Décision et l’Apprentissage pour la conduite de systèmes (JFPDA 2020). 2020.

[5] A. Delage, O. Buffet and J. Dibangoye. HSVI fo zs- POSGs using Concavity, Convexity and Lipschitz Prop- erties. arXiv (2021).

[6] O. Buffet, J. Dibangoye, A. Saffidine and V. Thomas. Heuristic Search Value Iteration for Zero-Sum Stochas- tic Games. IEEE Transactions on Games 13.3 (2021), pp. 239–248.

[7] G. Bono, J. Dibangoye, O. Simonin, L. Matignon and F. Pereyron. Solving Multi-Agent Routing Problems Us- ing Deep Attention Mechanisms. IEEE Transactions on Intelligent Transportation Systems (2020), pp. 1–10.

[8] J. S. Dibangoye, O. Buffet and A. Kumar. Multi- agent Planning and Learning As MILP. In: Actes Journées Francophones sur la Planification, la Décision et l’Apprentissage pour la conduite de systèmes (JFPDA 2020). 2020.

Résumé de soumission

Le Graal en Intelligence Artificielle (IA)—crée un agent (logiciel ou machine) qui se rapproche et éventuellement dépasse l’intelligence humaine—reste très éloigné. Ces dernières années ont été marquées par des avancées permettant à des agents artificiels de gagner en autonomie par l’interaction avec leur environnement. Ces avancées ont débouché sur des progrès significatifs dans la société et l’industrie, notamment dans les systèmes d’assistance médicale, de recommandation, et de conduite autonome. Elles sont en partie dues à l’apprentissage profond (DL) associé soit à l’apprentissage par renforcement (RL) soit à la recherche arborescente Monte-Carlo (MCTS), c’est-à-dire aux sous-champs de recherche en IA dans lesquels l’agent peut décrire son monde comme un processus décisionnel de Markov (PDM). Dans ce cadre, certains algorithmes de planification et RL convergent vers une stratégie comportementale optimale, tant que l’environnement dans lequel évolue l’agent est à la fois markovien et stationnaire, mais le passage à l’échelle reste un problème majeur. DL ainsi que les méthodes de RL et MCTS sont apparues comme une combinaison puissante pour briser le fléau de la dimension face à des problèmes de grande taille, à condition de pouvoir satisfaire leurs besoins astronomiques en données et en ressources de calcul. Au-delà du coût exorbitant de ces techniques, leur application s’est jusqu’ici limitée aux problèmes mono-agents et à ceux des jeux séquentiels.

Aujourd’hui, les applications réelles utilisent largement les systèmes multi-agents (SMA), c’est-à-dire des groupes d’agents autonomes en interaction, partageant un environnement, qu’ils perçoivent au travers de capteurs et sur lesquels ils agissent avec des actionneurs. À la maison, dans les villes et presque partout, un nombre croissant de capteurs et d’actionneurs nous entourent, parfois de façon très visible (robots, drones, voitures) mais souvent de manière imperceptible (smartphones, téléviseurs, aspirateurs). D’ici peu, à travers l’émergence d’une nouvelle génération de réseaux de communication, la plupart de ces machines interagiront les unes avec les autres via l’Internet des objets (IoT). Les SMAs en constante évolution affecteront tous les secteurs de la société et de l’industrie, y compris la sécurité, la médecine, les transports. Bien que les PDMs fournissent un cadre mathématique rigoureux pour la prise de décision mono-agent, ils n’offrent pas les mêmes guaranties pour les SMAs. Contrairement aux systèmes mono-agents, lorsque plusieurs agents interagissent, la façon dont l’environnement évolue dépend non seulement de l’action d’un agent, mais également des actions entreprises par les autres agents, ce qui rend invalide la propriété de Markov, et la stationnarité de l’environnement. En outre, une autorité de contrôle centralisée est souvent inadéquate car les agents ne peuvent pas (en raison des coûts de communication, de latence ou de bruit) ou ne veulent pas (dans des contextes concurrentiels ou stratégiques) partager en permanence toutes leurs informations.

La pénétration croissante des SMAs dans la société nécessitera un changement de paradigme— d’algorithmes de planification et RL mono-agent vers des algorithmes de planification et de RL multi-agents—en tirant parti des avancées récentes en IA. Cette observation conduit au défi fondamental qu’adresse cette proposition: la conception d’algorithmes génériques avec des garanties théoriques qui permettent de calculer efficacement des stratégies rationnelles pour un groupe d’agents coopératifs ou compétitifs, et cela dans l’incertain, mais en utilisant le même schéma algorithmique. Ces algorithmes devront s’adapter aux changements de l’environnement, s’appliquer à différentes tâches, et converger vers une solution rationnelle pour la tâche à accomplir. L’utilisation du même schéma algorithmique pour différents problèmes facilitera le transfert et la diffusion des connaissances au sein des communautés.

Jilles Steeve Dibangoye (CENTRE D'INNOVATION EN TELECOMMUNICATIONS ET INTEGRATION DE SERVICES)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

CITI CENTRE D'INNOVATION EN TELECOMMUNICATIONS ET INTEGRATION DE SERVICES

Aide de l'ANR 254 296 euros
Début et durée du projet scientifique : février 2020 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.