Flash Info
ChairesIA_2019_1 - Chaires de recherche et d'enseignement en Intelligence Artificielle - vague 1 de l'édition 2019

Ponts entre méthodes itératives proximales et réseaux de neurones – BRIDGEABLE

Pont entre méthodes itératives proximales et réseaux de neurones

Une approche élégante et puissante pour résoudre les défis se posant en science des données consiste à les formuler comme des problèmes d’optimisation. Depuis le travail pionnier de Moreau dans les années 1960, les outils proximaux ont gagné en popularité dans le domaine de l’optimisation. Dans le même temps, les réseaux de neurones profonds ont conduits à des succès remarquables dans beaucoup de domaines d’applications de l’analyse de données.

Vers des méthodes d'IA plus performantes et plus robustes

Traiter des données de grande dimension en un temps raisonnable, en concevant des algorithmes à la fois robuste et efficaces, est un dessein scientifique stimulant, qui constitue la ligne directrice de ce projet. Les aptitudes de méthodes proximales, telles que ADMM ou l’algorithme du gradient proximal, à appréhender des problèmes non lisses et à décomposer des fonctions objectifs complexes en des sommes de termes plus simples, a permis de réaliser des avancées significatives dans le traitement de grandes masses de données, au cours de la dernière décennie. Un des principaux avantages des algorithmes itératifs proximaux est qu’ils reposent sur une solide base mathématique, qui permet d’analyser de manière précise leurs propriétés de convergence. Au contraire, les justifications fondamentales des excellentes performances des réseaux de neurones profonds sont insuffisamment comprises, d’un point de vue mathématique. De plus, peu de garanties théoriques existent, à l’heure actuelle, concernant la robustesse de ces méthodes. Récemment, nous avons monté que quasiment toutes les fonctions d’activations utilisées dans les réseaux de neurones correspondent à des opérateurs proximaux de fonction convexes. Cette découverte ouvre de nouvelles perspectives en apprentissage profond en permettant d’exploiter les liens étroits existant entre les structures de réseaux de neurones et les algorithmes proximaux. L’objectif de cette chaire est de conduire à l’avènement d’une nouvelle génération d’approches combinant les avantages de fiabilité des méthodes proximales et d’efficacité pratique des méthodes d’apprentissage profond. Ces développements méthodologiques apparaissent essentiels pour améliorer l’interprétabilité et la sécurité des méthodes d’IA, ce qui s'avère de la plus grande importance dans nombreux contextes industriels. Ce grand défi est relevé en collaboration étroite avec trois partenaires industriels.

Trois grandes voies de recherche, elle-mêmes déclinées en sous-thèmes, sont explorées.

Tâche 1: Conception de réseaux de neurones robustes
Les réseaux de neurones sont connus pour être sensibles à des perturbations adverses de leurs entrées. Quantifier la régularité au sens de Lipschitz de ces réseaux fournit une garantie de stabilité. Pour les perceptrons multicouches, des bornes précises peuvent être déterminées, pour une large classe de normes, en se basant sur les propriétés de moyennage des fonctions d’activation usuelles. Ces résultats sont obtenus à l’aide d’outils empruntés aux méthodes de point fixe.
Thème 1.1: Généralisation de l’analyse de Lipschitz à des structures de réseaux plus complexes
Thème 1.2: Proposition de nouvelles architectures s’inspirant de la forme des algorithmes proximaux
Thème 1.3: Entrainement contraint pour imposer des certificats de stabilité

Tâche 2: Apprentissage d’opérateurs maximaux monotones
Un nouveau paradigme est proposé pour la résolution de problèmes inverses, où la fonction de régularisation usuelle est remplacée par un opérateur de régularisation. Plus précisément, le but est de définir la solution régularisée comme la solution d’un problème d’inclusion monotone. Ce dernier met en jeu la somme du sous-différentiel de la fonction de fidélité aux données et d’un opérateur maximal monotone, traduisant l’information a priori sur l’objet recherché. Cette généralisation des formulations convexes classiques paraît à la fois naturelle et élégante, mais elle induit un haut degré de liberté dans le choix de la stratégie de régularisation. Pour tourner cette difficulté en avantage, on se propose d’apprendre l’opérateur maximal monotone de façon supervisée à partir de jeux de données disponibles.
Thème 2.1: Génération de modèles d’opérateurs monotones à partir de réseaux de neurones
Thème 2.2: Exploration des liens existant avec les méthodes plug-and-play?
Thème 2.3: Conception de stratégies de point fixe pour l’entrainement

Tâche 3: Perspective proximale de l’apprentissage profond de dictionnaires
L’apprentissage de dictionnaires constitue un outil puissant largement utilisé en échantillonnage comprimé et en estimation de signaux parcimonieux. Des efforts récents ont permis d’étendre ces méthodes à des approches multi-échelles. Les techniques résultantes se sont révélées compétitives par rapport à des approches basées sur des réseaux de neurones. Les méthodes proximales intervenant dans la mise en oeuvre de ces techniques et jouant aussi un rôle important en apprentissage profond, elles fournissent un cadre privilégié pour analyser les différences et les points communs existant entre ces deux outils.
Thème 3.1: Explorer des liens entre l’apprentissage de dictionnaires et les changements de métriques
Thème 3.2: Analyser théoriquement la robustesse et l’expressivité des méthodes d’apprentissage profond de dictionnaires
Thème 3.3: Développer des stratégies d’apprentissage adaptatives

1) Développement d’outils proximaux pour l’analyse de réseaux de neurones
 - Méthode proximale de compression de réseaux de neurones (collaboration avec Schneider Electric) : nous avons proposé une nouvelle approche pour comprimer des réseaux de neurones et permettre ainsi leur mise en œuvre sur des architectures à faible capacité mémoire.
-  Certification de réseaux de neurones (collaboration avec Thales) : nous avons introduit une nouvelle analyse multivariée de la régularité au sens de Lipschitz des réseaux de neurones. Les résultats peuvent être visualisés à l’aide d’une représentation sous forme « d’étoile de Lipschitz » permettant de mesurer l’influence de chaque entrée ou groupe d’entrées.
-  Algorithmes d’entrainement de réseaux de neurones robustes (collaboration avec Politehnica Bucarest) : nous avons développé une nouvelle stratégie d’apprentissage sous contraintes permettant d’assurer la robustesse d’un réseau de neurones vis-à-vis de perturbations adverses. Notre algorithme repose sur le contrôle de la constante de Lipschitz du réseau, ici supposé être à poids positifs ou nuls.

2) Proposition de nouvelles stratégies de points fixes
- Définition d’un cadre rigoureux pour assurer la convergence des méthodes plug-and-play (collaboration avec Herriot Watt Univ., Edimbourg) : un nouvelle formulation a été introduit pour la résolution de problèmes inverses où l’approche classique de régularisation est remplacée par l’apprentissage de la résolvante d’un opérateur maximal monotone. Ceci fournit des garanties théoriques de convergence des méthodes itératives PnP.
-  Etude des problèmes de désajustements d’adjoints dans les méthodes de reconstruction d’images (collaboration avec GE Healthcare) : nous avons étudié l’algorithme du gradient proximal dans le cas où l’adjoint de cet opérateur est remplacé par une approximation, pouvant être plus simple à mettre en œuvre. Nous avons caractérisé les points fixes de l’algorithme, analysé ses conditions de convergence et évalué l’erreur liée à cette approximation.

3) Conception de représentations adaptatives
-  Lien théorique entre méthodes d’apprentissage de dictionnaires profonds et réseaux de neurones (collaboration avec North Carolina State Univ.) : nous avons mis en évidence des liens étroits existant entre les méthodes d’apprentissage profond de dictionnaires et des structures de réseaux de neurones récursifs. Ce résultat permet d’exploiter les méthodes de programmation différentielle existantes pour effectuer, de manière plus efficace, l’apprentissage profond de dictionnaires.
-  Structures de lifting entrainées pour la compression d’images (collaboration avec Univ. Paris 13) : nous avons proposé d’apprendre les opérations de prédiction et de mise à jour apparaissant dans les structures de lifting employées en compression d’images. Plus précisément, ces opérations ont été effectuées par des réseaux de neurones entièrement connectés.

Dans la suite du projet, les différents thèmes études seront approfondis en considérant des structures de réseaux neurones plus complexes (GNNs, en particulier) et en généralisant les résultats de convergence obtenus pour de nouvelles méthodes itératives. Par ailleurs, on s’intéressera également à l’utilisation de méthodes proximales pour la résolution de problèmes faiblement supervisés à l’aide de réseaux de neurones.

- 7 articles de journaux internationaux
- 7 articles de conférences internationales
- 1 brevet international soumis

Au cours de la dernière décennie, les méthodes proximales ont permis des avancées significatives en optimisation en grande dimension. Dans le même temps, les réseaux de neurones (RN) profonds ont conduit à des résultats impressionnants dans divers domaines d’applications de la science des données. Néanmoins, les raisons fondamentales de leurs excellentes performances sont encore mal comprises mathématiquement. Récemment, nous avons montré que la quasi-totalité des fonctions d’activation utilisées dans les architectures de RN (par exemple, les fonctions multivariées « aplaties » des réseaux à capsules) s’identifient à des opérateurs proximaux de fonctions convexes. Cette observation ouvre de nouvelles perspectives en apprentissage profond, permettant d’exploiter les liens étroits existant entre les structures de RN et les algorithmes proximaux itératifs. Dans ce projet, nous proposons trois axes de recherche.
Tout d’abord, la fragilité bien connue des RN vis-à-vis des perturbations adverses sera étudiée. Pour ce faire, des techniques de points de fixes reposant sur les propriétés de contraction de ces opérateurs d’activation seront exploitées. Les résultats préliminaires que nous avons déjà obtenus seront étendus à des architectures plus générales que les perceptrons multi-couches (par exemple, les réseaux résiduels et les GANs). De nouvelles architectures potentiellement plus robustes seront proposées en s’inspirant de méthodes proximales existantes. Des algorithmes d’apprentissages dédiés seront également conçus permettant de contrôler la constante de Lipschitz des RN considérés et ainsi de faire un pas décisif vers leur certifiabilité.
En second lieu, une nouvelle formulation des problèmes inverses sera proposée, visant à remplacer les fonctions de régularisation convexes usuelles par une approche de régularisation fondée sur des opérateurs maximaux monotones (OMM). Cette stratégie permettra de gagner non seulement en généralité, mais aussi en flexibilité. Ceci sera rendu possible grâce à l’apprentissage supervisé d’OMM à partir des données disponibles. Cette approche conduira à des algorithmes itératifs « plug and play » efficaces pour résoudre les problèmes de restauration/reconstruction d’images. Dans ces méthodes, les étapes de débruitage seront réalisées à l’aide d’un RN. Un des avantages majeurs de notre cadre sera de conduire à des résultats de convergence rigoureux des schémas itératifs obtenus. Le dernier axe de recherche portera sur l’étude des méthodes d’apprentissage profond de dictionnaires (APD). Celles-ci apparaissent actuellement comme des alternatives sérieuses aux RN. A chaque étape de ces méthodes, une fonction de coût non lisse est optimisée dans le but de construire une représentation optimale des données analysées, dans un dictionnaire adapté. Cette optimisation étant usuellement réalisée à l’aide de techniques proximales, ces méthodes peuvent être interprétées comme l’usage d’un opérateur d’activation non linéaire « intelligent ». Notre objectif sera de clarifier les relations existant entre l’APD et les RN de façon à rendre les techniques d’APD plus efficaces, tout en analysant plus précisément leurs performances. De plus, des stratégies seront élaborées afin accroître la flexibilité des approche d’APD en les rendant adaptatives aux données traitées.
En termes de retombées méthodologiques, ce projet devrait conduire à des progrès significatifs dans l’interprétabilité des RN et dans la proposition de nouvelles méthodes permettant d’améliorer leur fiabilité. En termes de retombées pratiques, les méthodes développées conduiront à une nouvelle génération de techniques pour résoudre des problèmes se posant dans trois champs d’applications: l’imagerie médicale 3D (collaboration avec GE Healthcare), l’analyse de données du domaine de l’énergie et de l’environnement (collaboration avec l’IFPEN) et la modélisation non-linéaire multivariée de moteurs électriques (collaboration avec Schneider Electric).

Coordination du projet

Jean-Christophe PESQUET (Centre de Vision Numérique)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

CVN Centre de Vision Numérique

Aide de l'ANR 484 920 euros
Début et durée du projet scientifique : août 2020 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter