CE23 - Intelligence artificielle

Données et a priori, apprentissage et contrôle – DeLiCio

Données et a priori, apprentissage et contrôle

Nous proposons de combiner l'apprentissage automatique et la théorie du contrôle pour la prise de décision séquentielle de plusieurs agents. Le projet propose des contributions fondamentales: ajouter de la stabilité aux algorithmes d'apprentissage par renforcement; méthodes basées apprentissage pour un contrôle robuste; méthodes hybrides ML / CT pour le contrôle et la planification multi-horizons; Les contributions méthodologiques seront appliquées au contrôle robuste des flottes d'UAV.

Nous combinons l'apprentissage automatique (ML) et la théorie du contrôle (CT) et abordons les problèmes de contrôle sous deux angles.

Nous combinons l'apprentissage automatique (ML) et la théorie du contrôle (CT) et abordons les problèmes de contrôle sous deux angles: <br />- Que peut-on modéliser (CT) et que faut-il apprendre (CT)? <br />- Pouvons-nous fournir, estimer ou garantir la stabilité (CT)? <br />- Pouvons-nous estimer la complexité de la tâche d'apprentissage et / ou la quantité de données nécessaires (ML)? <br />- Pouvons-nous fournir des objectifs auxiliaires pour un apprentissage plus efficace et / ou une création de données plus facile (ML)?

Plusieurs méthodologies différentes d'apprentissage automatique (ML) et de théorie du contrôle (CT) sont utilisées, étendues et / ou combinées de manière innovante:
- Apprentissage par renforcement et apprentissage par renforcement profond (ML)
- Identification du système (CT) avec les composants appris (ML)
- Conception d'observateur (CT) et représentation de l'état (ML)
- Contrôle hybride avec contrôleurs appris (ML) avec contraintes de stabilité supplémentaires (CT)
- Contrôle hybride avec des contrôleurs conçus (CT) avec des composants appris supplémentaires (ML)

- Les observateurs de systèmes dynamiques peuvent être appris de manière non supervisée avec des garanties
- Prédiction de l'avenir des systèmes dynamiques avec des estimations de l'erreur commise par le système
- Prédiction de l'avenir des systèmes mécaniques dans l'espace pixel/image directement et en intégrant des notions de causalité
- Ajout de stabilité à l'apprentissage par renforcement
- Différents algorithmes pour le contrôle hybride (ML + CT)
- Apprentissage par renforcement multi-agents dans des situations asymétriques

Outre la grande quantité de travail scientifique effectué au cours de la première partie du projet, qui a abouti à un grand nombre d'articles écrits, nous pensons que le plus grand succès est sans doute l'intégration étroite des partenaires du projet (voir la section III.5.1 et la figure 11 du rapport) et la nature multidisciplinaire du projet, conduisant à une meilleure compréhension des domaines respectifs des partenaires - apprentissage automatique pour les partenaires en contrôle, et théorie du contrôle pour les partenaires ML. Les articles co-rédigés sont le résultat de véritables collaborations d'un consortium intéressé par l'apprentissage de nouvelles directions scientifiques. Le gain de projet se résume par des nouvelles connaissances accrues pour le consortium, et également par des nouvelles contributions scientifiques pour les domaines (voir la liste des articles dans la section « production scientifique ».

La seconde moitié du projet étendra ce travail à plusieurs agents et à la commande de drones. En termes de théorie, nous commencerons à aborder la complexité de l’échantillon et la stabilité algorithmique dans les scénarios de contrôle.

=== Articles acceptés (le 31.3.2021)

[1] OK. Kocan, D. Astolfi, C. Poussot-Vassal, and A. Manecy. Supervised Output Regulation via Iterative Learning Control for Rejecting Unknown Periodic Disturbances. In IFAC, 2020.

[2] J. Peralez, F. Galuppo, P. Dufour, C. Wolf, and M. Nadri. Data-driven multi-model control for a waste heat recovery system. In CDC, 2020.

[3] Yuxuan Xie, J. Dibangoye, and Olivier Buffet. Optimally Solving Two-Agent Decentralized POMDPs Under One-Sided Information Sharing. In ICML 2020.

=== Articles soumis (le 31.3.2021)

[4] J. Peralez and M. Nadri. Deep Learning-based Luenberger observer design for discrete-time nonlinear systems. In pre-print arXiv (Submitted to CDC 2021), 2021.

[5] S. Janny, V. Andrieu, M. Nadri, and C. Wolf. Deep KKL: Data-driven Output Prediction for Non-Linear Systems. pre-print arXiv pending (Submitted to CDC 2021), 2021.

[6] S. Zoboli, V. Andrieu, D. Astolfi, G. Casadei, J. Dibangoye, and M. Nadri. Reinforcement Learning Policies with local LQR guarantees for Nonlinear Discrete-Time Systems. Arxiv pending, submitted to CDC, 2021.

=== Articles en cours de rédaction (le 31.3.2021)

[7] S. Janny, F. Baradel, N. Neverova, M. Nadri, G. Mori, and C. Wolf. FilteredCoPhy — Un- supervised and Counterfactual Learning of Physical Dynamics. Submission planned to IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021.

[8] J. Dibangoye and Yuxuan Xie. Learning to Act Optimally in Decentralized POMDPs Under Hierarchical Information Sharing. Submission planned for NeurIPS 2021.

Les dernières années ont été marquées par l’essor du Machine Learning (ML), qui a permis des gains en performances significatifs dans plusieurs domaines d'application. Outre les progrès méthodologiques indéniables, ces gains sont souvent attribués à des grandes quantités de données d'entraînement et à la puissance de calcul, qui ont conduit à des avancées dans la reconnaissance de la parole, la vision par ordinateur et le traitement automatique de la langue. Dans ce projet, nous proposons d'étendre ces avancées à la prise de décision séquentielle d'agents dans un contexte de planification et de contrôle.

Dans le contexte du contrôle robuste d’agents tels que les drones, les robots mobiles, les bras robotiques etc., nous proposons un projet de recherche fondamentale. Dans ce cadre, les méthodes de l'automatique (théorie du contrôle) se sont établies comme méthodologies dominantes pour les applications où un modèle physique de l'agent et/ou de l'environnement peut être obtenu. Ces approches fondées sur un modèle sont puissantes car elles reposent sur une compréhension approfondie du système et peuvent exploiter des relations physiques établies. En revanche, cette modélisation est difficile à obtenir en présence de grandes incertitudes, par exemple dans le cas du contrôle à partir d'observations visuelles dans les environnements complexes.

L’intelligence artificielle, et surtout le Machine Learning, est une méthodologie alternative qui vise à apprendre des modèles complexes à partir de quantités souvent massives de
données. Les processus décisionnels de Markov (MDP) et l'apprentissage par renforcement (RL) fournissent un cadre mathématique pour les applications de contrôle dans lesquelles les agents sont entraînés à partir d'interactions passées avec un environnement. Ces dernières années, cette méthodologie a été associée aux réseaux de neurones profonds, qui jouent le rôle d'approximateurs de fonctions. Cette stratégie a permis de lever de nombreux verrous scientifiques dans certaines applications comme le contrôle des jeux (Go, Atari, DOTA, etc).

Alors que dans de nombreuses applications, l'apprentissage automatique est devenu la méthodologie prédominante, le contrôle robuste et bas niveau (horizon court) d'agents physiques reste un domaine dans lequel l'ingénierie de contrôle ne peut pas être remplacée à l'heure actuelle. Cela s'explique principalement par (i) un manque de stabilité des agents entraînés à partir de données, (ii) l'absence de garanties fournies pour l'apprentissage automatique, (iii) le manque de puissance de calcul d'un grand nombre de plateformes embarquées.

Dans ce contexte, le projet le projet DeLiCio propose des recherches fondamentales à cheval entre les domaines IA/ML d’un coté et de l’automatique de l’autre coté, ciblant des contributions algorithmiques prévues sur l'intégration de modèles, de connaissances a priori et de l’apprentissage automatique pour le contrôle et les boucles perception / action. Nous proposons
- l’apprentissage automatique (l’identification ) de modèles pour le contrôle ;
- l’apprentissage de représentations de l’état d’un agent pour le contrôle ;
- l’ajout de biais inductive pour les agents appris par apprentissage par renforcement garantissant stabilité et robustesse;
- Le contrôle robuste et décentralisé de système multi-agents basé sur le ML et l’automatique.

Les méthodologies proposées dans ce projet seront évaluées sur une application exigeante, à savoir le contrôle décentralisé de flottilles de drones, ciblant des conditions réalistes de vols en formation.

Coordinateur du projet

Monsieur Christian Wolf (UMR 5205 - LABORATOIRE D'INFORMATIQUE EN IMAGE ET SYSTEMES D'INFORMATION)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LAGEPP LABORATOIRE D'AUTOMATIQUE ET DE GENIE DES PROCEDES
CITI CENTRE D'INNOVATION EN TELECOMMUNICATIONS ET INTEGRATION DE SERVICES
ONERA Département Traitement de l'Information et Systèmes
LIRIS UMR 5205 - LABORATOIRE D'INFORMATIQUE EN IMAGE ET SYSTEMES D'INFORMATION

Aide de l'ANR 533 072 euros
Début et durée du projet scientifique : septembre 2019 - 48 Mois

Liens utiles

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter