ChairesIA_2019_2 - Chaires de recherche et d'enseignement en Intelligence Artificielle - vague 2 de l'édition 2019

Apprentissage automatique et optimisation coopératifs. – CAMELOT

CooperAtive MachinE Learning and OpTimization

L'objectif de la Chaire CaMeLOt est de relever les défis modernes du crowd-sourcing, du peer-grading et de fournir un cadre mathématique unifié et des algorithmes efficaces pour faire face à l'apprentissage et à l'optimisation coopératifs et décentralisés.

crowd-sourcing (avec un accent sur l'identification des espèces), apprentissage et optimisation décentralisés (préservation de la vie privée), évaluation par les pairs (modélisation et analyse)

Nous cherchons à relever les défis de l'identification de la biodiversité par le crowd-sourcing. L'informatique de la biodiversité est une discipline jeune (le terme a été inventé au début des années 1990) s'appuyant sur des informations taxonomiques, biogéographiques ou écologiques. Pl@ntNet, un projet de science citoyenne conçu pour identifier automatiquement les plantes grâce à des photos est un élément clé de CaMeLOt. Le processus d'annotation tend à lever une partie de l'ambiguïté présente dans les images de plantes collectées par Pl@ntNet, dès le début. Les détails sur la manière de relever les défis statistiques et d'apprentissage dans ce contexte font l'objet de l'axe 1. Ensuite, l'apprentissage et l'optimisation décentralisés sont devenus critiques ces dernières années. En effet, les problèmes d'optimisation sont omniprésents en apprentissage automatique (de nombreux algorithmes sont des solutions de problèmes d'optimisation : Régression ridge, SVM, Boosting ou Neural Network par exemple). Aujourd'hui, alors que de plus en plus de citoyens sont préoccupés par les questions de confidentialité, les techniques évitant de collecter et de stocker d'énormes ensembles de données (éventuellement sensibles) gagnent de plus en plus en popularité. Cela nécessite de repenser les architectures standard, qui passent d'une version centralisée à une version décentralisée et distribuée. Un exemple d'un tel scénario d'apprentissage distribué est l'apprentissage fédéré, qui est actuellement utilisé par Google pour améliorer ces services de claviers mobiles : pour préserver la confidentialité, l'appareil télécharge le modèle actuel (disons un réseau de neurone récurrent), l'améliore en apprenant localement à partir des données présentes sur le téléphone, puis le met à jour. L'apprentissage ce fait localement, puis un résumé des changements sous la forme d'une mise à jour légère qui peut être partagée en toute sécurité. Seule cette mise à jour est envoyée et combinée avec celle des autres utilisateurs pour améliorer le modèle partagé : aucune donnée d'apprentissage ne quitte l'appareil de l'utilisateur. Dans l'Axe 2, nous prévoyons de gérer de telles contraintes en utilisant des méthodes stochastiques et de commérage. Enfin, le développement des cours en ligne ouverts et massifs (MOOC) a rendu la notation par les pairs populaire même en dehors des contextes scientifiques (où les chercheurs sont habitués à cette pratique). Ce type de technique d'évaluation, où un étudiant réalise un travail et corrige celui de ses pairs, a également gagné en popularité dans les cours standard. Pourtant, la diffusion de l'évaluation par les pairs a été lente dans le monde universitaire (notamment en France), et il manque de solutions logicielles pour atteindre un public large. Ces 3 axes exigent de nouvelles connaissances mathématiques et informatiques, s'appuyant sur les outils d'inférence en grand dimension, d'optimisation à grande échelle et de développement logiciels.

Apprentissage automatique, optimisation, crowd-sourcing, agrégation, notation par les pairs

- collecter plusieurs étiquettes par image, prédire des ensembles d'espèces et
l'intégration de ces nouvelles informations dans l'apprentissage des réseaux de neurones convolutifs (CNN).
- Lissage des pertes top-K pour l'apprentissage profond en classification extrême

- Confidentialité différentielle et commérage
- Structure de spartialité et optimisation asynchrone décentralisée

- Amélioration de la modélisation et de l'estimation fiable pour diffuser le classement par les pairs.
- réduire le biais à la hausse dans les notes des pairs
- quantifier le bénéfice pour l'acquisition de compétences.
- La mise à disposition d'une interface utilisateur améliorée et plus simple contribuerait à la diffusion de cette technique de notation.

Résultats

Nous avons déjà :

- Fourni un nouveau jeu de données (Pl@ntNet-300K), qui est un jeu de données d'images de plantes avec une grande ambiguïté d'étiquette et une distribution à longue queue. Cela serait utile pour les biologistes et pour les apprenants de machines pour former des modèles sur des problèmes réalistes.

- Nous avons introduit une méthode de classification top-K qui améliore l'état de l'art lorsqu'elle est combinée à l'apprentissage profond pour la classification extrême. La solution est compacte et facile à intégrer dans les boîtes à outils modernes d'apprentissage profond.

- Nous avons fourni un nouveau cadre pour le réglage des hyperparamètres qui pourrait être utile dans une grande variété de problèmes d'apprentissage que nous abordons dans ce projet (régression clairsemée dans des paramètres centralisés/décentralisés, fonctions de perte de lissage avec différents niveaux de lissage...).

- Nous avons analysé et amélioré le contrôle connu de l'algorithme de descente de coordonnées dans un cadre différentiellement privé. Cet algorithme est bien adapté aux applications de modèles de régression clairsemée dans un contexte de fortes contraintes de confidentialité (comme pour les applications médicales).

Traduit avec www.DeepL.com/Translator (version gratuite)

Perspectives

La plus grande contribution jusqu'à présent est l'introduction d'une méthodologie pour améliorer les performances du top-K pour la classification extrême (rencontrée dans des applications comme Pl@ntNet) et la publication d'un jeu de données (Pl@ntNet 300K) qui pourrait être intéressant pour la communauté. L'existence d'une telle méthode de référence pourrait favoriser de nouvelles approches et améliorer les performances pratiques de ce type d'applications.
En parallèle, le développement de Benchopt, une plateforme permettant de comparer les performances des solveurs d'optimisation, pourrait également avoir un impact similaire, bien que dans une gamme d'applications plus large.

Productions scientifiques et brevets

- Pl@ntNet-300K: a plant image dataset with high label ambiguity and a long-tailed distribution
C. Garcin, A. Joly, P. Bonnet, A. Affouard, J.-C. Lombardo, M. Chouet, M. Servajean, T. Lorieul and J. Salmon (2021)
Neurips, Datasets and Benchmarks Track

- Stochastic smoothing of the top-K calibrated hinge loss for deep imbalanced classification
Garcin, C. and Servajean, M. and Joly, A. and Salmon, J. (2022)

- Differentially Private Coordinate Descent for Composite Empirical Risk Minimization
P. Mangold, A. Bellet, J. Salmon and M. Tommasi (2021) (preprint)

- Quentin Bertrand, Quentin Klopfenstein, Mathurin Massias, Mathieu Blondel, Samuel Vaiter, et al.. Implicit differentiation for fast hyperparameter selection in non-smooth convex learning. 2021. ?hal-03228663?

Open source: Benchtop / GBIF

Résumé de soumission

Statistique, étymologiquement, vient du mot "état", et il donc normal qu'historiquement une telle entité était nécessaire pour stocker l'ensemble des données d'une population, de manière centralisée.
Les données étaient couramment stockées en un seul endroit, avant toute analyse, mais avec les récentes évolutions en matière de stockage, de calcul et de protection de la vie privée, ce paradigme a largement changé, conduisant à des méthodes décentralisée et coopérative d'analyse des données ou d'entraînement des systèmes d'apprentissage.
Nous nous concentrerons ici sur trois axes profondément enracinés dans cette évolution.

Le premier est la production participative (ou crowd-sourcing), qui bien que souvent négligée, a contribué à la popularité des réseaux de neurones (désormais souvent renommé "apprentissage profond"): les autres facteurs clés souvent mentionnés pour ce succès sont les GPU, un écosystème logiciel mature ou la disponibilité de vastes base de données.
Or ce dernier point repose sur la production participative pour étiqueter ces millions d'images, ce qui est encore plus cruciale pour les domaines appliqués où il est difficile de trouver un expert pour effectuer l'étiquetage.
Nous prévoyons d'aborder l'identification des espèces par un système coopératif à grande échelle: un exemple réussi est Pl@ntNet (un projet de science citoyenne qui identifie automatiquement les plantes grâce à des images).
Notre but est de construire un cadre théorique et de nouveaux algorithmes pour contrôler et améliorer la qualité de l'identification des espèces par un tel système coopératif, et ainsi d'aider à surveiller la distribution et l'évolution de la biodiversité.
Le manque de données d'entraînement de qualité est souvent un obstacle majeur en production participative et un effort majeur sera consenti pour comprendre et résoudre les problèmes dus aux ambiguïtés du processus d'étiquetage.

Le deuxième axe est l'apprentissage décentralisé, apparu dans les télécommunications mais maintenant popularisé dans les services de "cloud computing".
Dans ce contexte, les données sont stockées à divers endroits (e.g., différents mobiles d'un réseau).
Parallèlement, le grand public est devenu plus soucieux des enjeux de confidentialité et le partage de données sensibles avec une entité centralisée (État ou entreprise) est souvent perçu comme une menace potentielle.
Cependant, apprendre sur l'ensemble des données d'une population pourrait être bénéfique pour la population entière, et pour répondre aux contraintes de confidentialité, de nouvelles techniques ont récemment été développées, comme le commérage ("gossip") ou l'apprentissage fédéré.
Leur principale caractéristique est que les utilisateurs ne partagent pas l'ensemble de leurs données avec une entité de (faible) confiance, mais juste des informations partielles avec quelques agents sûres.
Nous prévoyons d'accélérer de ces méthodes en réduisant les communications entre les agents et en utilisant l'aléa et la parcimonie des mises à jour locales (de la procédure d'apprentissage).

Le dernier axe est la notation par les pairs, qui a gagné en popularité ces des dix dernières années avec le développement des MOOCs.
Dans la notation par les pairs, les étudiants sont considérés comme des agents coopératifs et effectuent aussi la notation.
Pour l'enseignant l'aspect répétitif est supprimé, ce qui laisse du temps pour un retours plus précis.
Pour l'élève, l'apprentissage est amélioré par la répétition (e.g., un élève corrige trois devoirs) et les réponses pertinentes de quelques-uns peuvent être diffusées rapidement dans la classe entière.
Mais il existe un biais inhérent: les étudiants ont tendance à surestimer leurs camarades!
Nous prévoyons de réduire cet inconvénient en tirant parti de la modélisation statistique et en fournissant un logiciel ouvert (qui permettrait de corriger les bogues par la communauté et d'accéder aux logs pour nos recherches).

, Joseph SALMON (Institut Montpelliérain Alexander Grothendieck)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

IMAG Institut Montpelliérain Alexander Grothendieck

Aide de l'ANR 599 324 euros
Début et durée du projet scientifique : juin 2020 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.