Algorithmes, Approximations, Parcimonie et Plongements pour l’IA – AllegroAssai
Allegro Assai – Algorithms, Approximations, Sparsity and Sketching for AI
Un enjeu important pour le développement de techniques d'IA qui soient à la fois utiles, économes en ressources, et de confiance, est l'établissement de fondations algorithmiques et mathématiques solides. L'exploitation de flux massifs de données soulève aussi le besoin de contrôler les compromis entre performance et empreinte numérique.
Maîtrier les compromis fondamentaux de l'apprentissage efficace en ressources
Le défi scientfiique fondamental d'AllegroAssai est de concevoir des techniques d'IA qui soient non seulement statistiquement maîtrisées (pour assurer leur performance, leur équité, leur respect de la confidentialité nécessaire, etc.) mais également aussi économes en ressources que possible (qu'il s'agisse de mémoire ou de calcul, tous deux fortement corrélés à l'empreinte énergétique et au coût du matériel), robustes et sûres dans des conditions adverses, et capables d'exploiter une grande variété de connaissances expertes a priori.
La vision d'AllegroAssai est que la notion versatile de parcimonie, combinée avec des techniques de compression exploitant des formes modernes de projections aléatoires, sont des ingrédients clés pour maîtriser les compromis fondamentaux de l'apprentissage économe en ressources.
Un premier pilier du projet est l'exploration des réseaux de neurones profonds parcimonieux. Il s'agit de comprendre les compromis entre capacité d'approximation d'une architecture de réseaux (ResNets, U-nets, etc.) et facilité d'entraînement d'une telle architecture avec des algorithmes aux performances garanties. Une piste privilégiée consiste à définir des régulariseurs efficaces pour promouvoir des réseaux qui soient à la fois parcimonieux et robustes en contexte adverse.
Un second pilier s'articule autour de la conception de techniques d'apprentissage compressif. Il s'agit de compresser drastiquement les données au plus tôt dans la chaîne de traitement, en garantissant la performance globale tout en maîtrisant la complexité indépendamment du volume de données d'entraînement.
Une première série de résultat concerne les fondations algorithmiques et théoriques des réseaux de neurones profonds parcimonieux. Nous avons en particulier mis en lumière, analysé et caractérisé la redondance intrinsèque et les invariances des paramétrisations de réseaux ReLU profonds. Outre une nouvelle représentation invariante de ces paramètres et une étude de leur identifiabilité à partir d'une connaissance partielle de la fonction implémenté par le réseau correspondant, nous avons proposé de nouveaux algorithmes sans descente de gradient pour certains problèmes de factorisation creuse multicouche, avec des garanties de performance.
Plus généralement, nous avons étudié de façon approfondie l'identifiabilité de factorisations creuses plus ou moins profondes de matrices, avec support connu ou non, ainsi que la difficulté des problèmes d'optimisation associés.
La deuxième grande famille de résultats obtenus concerne les fondations algorithmiques et statistiques de l'apprentissage compressif. Il s'agit notamment de garanties statistiques de performance pour certaines approches d'apprentissage compressif non-supervisé. 
Enfin, des résultats ont également été obtenus au sujet de la confidentialité différentielle pour l'estimation de multiquantiles, ainsi que pour la définition et la caractérisation de régulariseurs convexes optimaux en réduction de dimension.
Apprentissage rapide de transformées rapides, avec des garanties.
Un enjeu majeur est d’obtenir des méthodes efficaces pour apprendre des réseaux de neurones efficaces, l’approche privilégiée dans ce projet pour y parvenir étant d’exploiter la parcimonie. Une avancée significative dans cette direction a été obtenue dans le contexte plus restreint de la factorisation parcimonieuse multicouche de matrices, qui consiste à approcher une grande matrice carrée nxn par un produit de log n facteurs « papillons » très creux associés à une transformée rapide de complexité O(n log n) . Lorsqu’une factorisation exacte existe, nous avons établi qu’elle est essentiellement unique et peut être retrouvée avec un algorithme de complexité O(n2). Ce coût –celui d’une multiplication de la matrice initiale par un vecteur– est parfaitement contrôlé, contrairement aux algorithmes de descente de gradient de l’état de l’art qui n’ont par ailleurs pas de garantie d’identifier la factorisation optimale.
Une perspective immédiate est d'étendre cet algorithme à des contextes moins contraints pour en démontrer le potentiel effectif pour entraîner des réseaux profonds parcimonieux. Le projet explore aussi des algorithmes capables d'expoiter des co-processeurs optiques, économes en énergie, en apprentissage compressif. Enfin, nous étudions l'application de l'apprentissage compressif pour l'entraînement auto-supervisé de réseaux profonds dans le contexte des véhicules autonomes.
Les publications du projet sont disponibles sur team.inria.fr/dante/projects/allegro-assai/allegro-assai-publications/
Pour garantir à la fois l’utilité et la fiabilité des technologies d’IA, ainsi que leur sobriété en ressources, des fondements algorithmiques et mathématiques solides sont indispensables. L’exploitation de flux de donnés massifs nécessite ainsi de contrôler les compromis entre performance et ressources calculatoires. Par exemple, les flux générés par les capteurs équipant les prototypes de véhicules autonomes atteignent plusieurs téraoctets par jour par véhicule. Une autre contrainte est d’assurer le respect de la réglementation européenne concernant la vie privée (RGPD), par exemple lorsque ces flux incluent des vidéos avec des images de piétons ou de plaques minéralogiques. Les contraintes simultanées de confidentialité, de performance et de robustesse en situation adverse sont encore plus marquées en IA sur des données médicales sensibles.
L’objectif ultime d’AllegroAssai est de concevoir des techniques d’IA intrinsèquement munies de solides garanties statistiques solides pour assurer leur performance, équité, confidentialité, etc. Elles devront combiner sobriété en ressources (notamment mémoire et calcul, qui ont un fort impact sur les coûts énergétiques), fonctionnement sûr et robuste en conditions adverses, et capacité à exploiter des modèles et connaissances métiers spécifiques à certains domaines d’application. 
Les deux ingrédients clés pour maîtriser ces compromis fondamentaux de l’IA sont la notion polymorphe de parcimonie et les projections aléatoires de type sketching.
Le premier axe du projet est consacré aux réseaux de neurones profonds à connections parcimonieuses. Il s’agit de comprendre comment les architectures de réseaux (ResNet, U-net, etc.) mènent à différents compromis entre capacité d’approximation et facilité d’entraînement avec des algorithmes à performance garantie. Une étape importante sera de concevoir des outils de régularisation favorisant à la fois la parcimonie des réseaux et leur robustesse en situation adverse.
La conception de chaînes complètes de sketching pour l’apprentissage compressif à grande échelle constitue le second axe du projet. Les techniques développées devront être à la fois flexibles, efficaces, et munies de garanties mathématiques. La complexité visée pourra dépendre de la structure latente des données et de la tâche visée, mais non du volume des données.
Pour aborder ces défis, AllegroAssai s’appuiera sur les avatars modernes de la notion de parcimonie, mais aussi sur l’analyse fonctionnelle en grande dimension, la géométrie de l’information, les techniques de sketching pour la réduction de dimension par plongement de distributions, et l’optimisation non-convexe. On combinera pour cela investigations théoriques et expérimentation heuristique sur quelques applications cibles. Les chaînes de traitement proposées feront l’objet de développement en mode agile, en s’appuyant sur du calcul optique pour réduire l’empreinte énergétique des calculs dans la mesure du possible. Des librairies logicielles assureront la large diffusion des résultats, depuis l’agrégation distribuée de sketches et l’apprentissage à partir de ceux-cis jusqu’à l’entraînement de réseaux parcimonieux.
Grâce à la performance et à la sobriété ressources des techniques de sketching et de réseaux de neurones parcimonieux développées, AllegroAssai contribuera à l’émergence d’une économie verte de l’IA, moins consommatrice d’énergie, favorisant la convergence avec la transition écologique. La compacité en mémoire et le respect de la vie privée rendront par ailleurs possible le partage et l’aggrégation de flux massifs de données massifs entre acteurs de l’industrie du transport, ouvrant ainsi la voie à la mise en place d’une politique des données offensive et ambitieuse pour le transport.
Coordination du projet
Rémi GRIBONVAL (Laboratoire d'Informatique du Parallélisme)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
					
						
							LIP Laboratoire d'Informatique du Parallélisme
						
					
				
				
					Aide de l'ANR 599 616 euros
				
				Début et durée du projet scientifique :
					août 2020
						- 48 Mois