Raisonnement Visuel dans les architectures de réseaux de neurones profonds – VISA DEEP
VISA DEEP
.
.
.
.
.
.
.
Au cours de la dernière décennie, l’apprentissage machine et les réseaux de neurones profonds (DNN) ont été au cœur d'une révolution technologique et scientifique de l’Intelligence Artificielle (IA). En classification d'images, les DNN constituent l'approche phare depuis 2012, où pour la première fois la grande compétition ImageNet a été remportée par un réseau de neurones profond.
Dans cette chaire d'IA, nous proposons d'étudier des tâches de raisonnement visuel allant au-delà d'une classification comme celle d'ImageNet. Cela nécessite de prendre en compte certains processus de raisonnement dans le schéma d'analyse visuelle. Nous avons l'intention d'explorer la combinaison de blocs de raisonnement dans des architectures profondes. Nous voulons interroger le type de bloc, les structures et les règles qui régissent leurs agencements. La principale exigence en termes de types de structures que nous considérons est d’obtenir une architecture hybride finale (raisonnement explicite / implicite) pouvant être entraînée de bout en bout. Obtenir une fonction différentiable pour le DNN final limite le type de combinaison ou la nature du raisonnement à considérer.
Notre premier axe de travail concerne la conception de DNN exploitant des mécanismes de raisonnement visuels. Nous proposons d’examiner différents aspects de cette problématique:
- Développer des approches semi-explicites
- Introduire des modules de fusion pour la combinaison de deep
- Etudier des mécanismes d’attention visuelle
Récemment, la communauté Computer Vision a développé un terrain de jeu très intéressant pour instancier le raisonnement visuel: la tâche visual question answering (VQA). Nous examinerons différents contextes, y compris le VQA, pour expérimenter nos propositions. Nous sommes également sensibles à un autre problème récurrent dans les tâches d’apprentissage automatique: les biais. En particulier, les jeux de données VQA présentent souvent de fortes corrélations entre la question et la réponse, de sorte que les modèles apprennent à s'appuyer principalement sur le contenu de la question et pas suffisamment sur l'image. Nous aimerions étudier les approches d’apprentissage qui limitent cet effet de biais.
Notre deuxième axe concerne le problème de la conduite autonome. Nous voulons nous concentrer sur la construction de systèmes de conduite pouvant fournir une explication claire de leur comportement. Dans le cas idéal, un modèle devrait pouvoir expliquer ses décisions aux utilisateurs. Nous sommes motivés par les capacités d'explication que les modèles de raisonnement visuel que nous allons développer peuvent présenter. La visualisation est liée au concept d’explicabilité. Développer de nouvelles stratégies de visualisation sera donc un enjeu majeur de notre projet de recherche. En particulier, nous envisageons de visualiser les processus internes exécutés par nos modèles profonds. Dans l'exemple de l'attention spatiale, la visualisation des cartes de saillance peut fournir un signal compréhensible pour l'homme pour expliquer le comportement d'un réseau. Nous envisageons ce type de stratégie dans le contexte de la conduite autonome pour développer des modèles convaincants d’explication décisionnelle. Plus généralement, l'explication pourra prendre différentes formes (textuelle, visuelle) et devra être compréhensible par l'utilisateur. Pour la conduite autonome, la compréhension de la décision de la voiture est un facteur de confiance important et de transparence.
Il s'agit d'une étape majeure pour comprendre le traitement visuel complexe, puis pour repenser ou adapter les architectures profondes en conséquence.
Coordination du projet
Matthieu CORD (Laboratoire d'informatique de Paris 6)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
LIP6 Laboratoire d'informatique de Paris 6
Aide de l'ANR 594 000 euros
Début et durée du projet scientifique :
août 2020
- 48 Mois