CE23 - Intelligence Artificielle

Segmentation, clustering, et seriation actifs et passifs: vers des fondations unifiées en IA – ASCAI

Résumé de soumission

L'apprentissage non supervisé est l'un des problèmes les plus fondamentaux de l'apprentissage automatique, et plus généralement de l'intelligence artificielle. Au sens large, cela revient à apprendre, à partir d'un jeu de données, une structure latente. Cette structure peut être intéressante en soi, ou peut être un ingrédient important d'une procédure complexe d'analyse de données. L'une des pierres angulaires de l'apprentissage non supervisé est le clustering, dont le but est de construire une partition des données en groupes homogènes. Outre le clustering basique, l'apprentissage non supervisé englobe une grande variété de problèmes connexes tels que le clustering hiérarchique, où la structure du groupe est plus complexe, la segmentation où la forme des clusters est contrainte, ou des problèmes de ranking/sériation pour des données exempt de structure de groupe, mais soumises à un ordre implicite. Tous ces problèmes ont déjà trouvé d'innombrables applications et l'intérêt pour ces méthodes se renforce en raison de la quantité de données non étiquetées disponibles. Nous pouvons par exemple citer le crowdsourcing - où les individus répondent à un sous-ensemble de questions, et où l'on souhaite les regrouper en fonction de leur domaine d'expertise, les classer en fonction de leurs performances, ou les classer en fonction de leurs affinités. Ces problèmes sont extrêmement pertinents pour les systèmes de recommandation et pour les analyses de réseaux sociaux.

L'analyse des procédures d'apprentissage non supervisé a une longue histoire qui prend ses racines à la fois dans les communautés informatique et mathématiques. En réponse aux ponts récents entre ces deux communautés, les fondements théoriques du clustering basique ont connu des progrès substantiels. En raison de l'omniprésence du clustering en apprentissage non supervisé, nous pensons que ces progrès peuvent avoir un large et profond impact dans ce domaine. Le premier volet d'ASCAI est de propager les récentes avancées du clustering basique à des problèmes où la structure latente est soit plus complexe, soit plus contrainte. Nous examinerons les problèmes où la complexité des structures latentes est croissante - en partant du clustering hiérarchique et en nous dirigeant vers le ranking, la sériation et la segmentation - et proposerons de nouveaux algorithmes qui s'appuieront les uns sur les autres, en se concentrant sur les interfaces entre ces problèmes. En conséquence, nous prévoyons de fournir de nouvelles méthodes qui sont valides sous des hypothèses plus faibles par rapport à ce qui est habituellement fait - par exemple des hypothèses paramétriques tout en s'adaptant à la difficulté intrinsèque inconnue du problème.

De plus, dans les formes d'application les plus actuelles, l'apprentissage non supervisé s'effectue de manière séquentielle. Citons comme exemple un système de recommandation qui conseille séquentiellement des objets à des utilisateurs. Dans ce contexte où des décisions séquentielles et actives sont prises, il est important de tirer parti de la structure latente sous-jacente. Alors que les domaines de l'apprentissage non supervisé et de l'apprentissage séquentiel et actif sont florissants, la recherche entre ces deux domaines a été menée principalement séparément par chaque communauté - conduisant à des procédures qui peuvent être améliorées. le deuxième volet d'ASCAI sera donc de réunir les domaines de l'apprentissage non supervisé et de l'apprentissage actif, afin de proposer de nouveaux algorithmes plus efficaces pour exploiter la structure latente inconnue de manière séquentielle. Nous examinerons les mêmes problèmes d'apprentissage non supervisé et nous nous concentrerons sur le développement d'algorithmes qui tirent pleinement parti des nouvelles avancées en matière de clustering - ainsi que de nos propres travaux futurs.

Coordination du projet

Nicolas Verzelen (Mathématiques, Informatique et Statistique pour l'Environnement et l'Agronomie)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

TUM Technical University of Munich
LMO Laboratoire de mathématiques d'Orsay
MISTEA Mathématiques, Informatique et Statistique pour l'Environnement et l'Agronomie
UP Universitaet Potsdam/ Institut fuer Mathematik

Aide de l'ANR 272 496 euros
Début et durée du projet scientifique : janvier 2022 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter