Causal Abstraction Benchmark : Évaluation Rigoureuse de l'Interprétabilité Algorithmique – CAB
À mesure que les systèmes d'IA sont de plus en plus déployés dans des applications du monde réel, le besoin de méthodes d'interprétabilité robustes devient plus urgent. Garantir l’équité, la transparence et l'utilisation responsable des IA dépend de l'application de méthodes d’interprétabilité efficaces.
Le projet CAB vise à faire progresser l'interprétabilité de l'IA en créant un cadre rigoureux pour évaluer les méthodes d'explications par rapport à des explications de référence. Malgré les efforts croissants en recherche sur l’interprétabilité, un défi fondamental demeure : nous manquons d’explications de référence contre lesquelles valider les techniques proposées. Pour y remédier, CAB générera des réseaux neuronaux intégrant des explications de référence, fournissant ainsi un benchmark pour tester de nombreuses techniques d’interprétabilité. Le projet repose sur le cadre théorique de l’abstraction causale constructive, qui formalise le défi de l’interprétabilité comme la tâche consistant à découvrir des explications de haut niveau, compréhensibles par les humains, du comportement d’un modèle d’IA, tout en restant fonctionnellement (c’est-à-dire causalement) cohérentes avec les détails de bas niveau de son implémentation. Malgré ses fortes motivations théoriques et philosophiques, cette approche de recherche en est encore à ses débuts et manque de métriques opérationnelles, de jeux de données et de méthodes.
Les objectifs de CAB incluent : (i) le développement et la validation d'une métrique d’Erreur d’Abstraction Constructive (CAE) pour mesurer l’alignement causal, (ii) la création d’un benchmark associant des réseaux neuronaux à leurs explications de référence, et (iii) l’évaluation des méthodes d’interprétabilité existantes sur ce benchmark. La création de ce benchmark repose sur une idée simple permettant de contourner l'absence naturelle de paires réseaux neuronaux-explications : d’abord, échantillonner une explication de haut niveau, puis construire des réseaux neuronaux explicitement alignés causalement avec une explication prédéfinie. Pour y parvenir, nous proposons une nouvelle méthode appelée Synthèse d’Abstraction Constructive (CAS), qui entraîne des sous-ensembles du réseau neuronal à être causalement cohérents avec l’explication cible, produisant ainsi une paire avec une explication de référence garantie (par la théorie de l'abstraction causal constructive).
CAB sollicite un financement pour un contrat postdoctoral (26 mois) et quatre stages de Master afin de mener à bien ce projet. En fournissant une base rigoureuse pour tester les méthodes d’interprétabilité à partir d'explications connues, le projet CAB ambitionne de faire progresser la recherche en interprétabilité et de l’ancrer sur des bases plus formelles. De plus, afin de favoriser l’engagement de la communauté, CAB proposera une plateforme publique où un ensemble de réseaux seront mis à disposition sous forme d’énigmes à résoudre pour les chercheurs en interprétabilité.
Coordination du projet
Maxime Peyrard (Laboratoire d'Informatique de Grenoble)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
LIG Laboratoire d'Informatique de Grenoble
Aide de l'ANR 217 892 euros
Début et durée du projet scientifique :
septembre 2025
- 30 Mois