AT2TA - Analogies: de la Theorie aux ouTils et Applications – AT2TA
|AT2TA - Analogies: de la Theorie aux ouTils et Applications
|L'objectif général du projet AT2TA est de proposer un framework de ML (machine learning) qui intègre le RA (raisonnement par analogie) et l’adapte à différents cas d'utilisation réels. La nouveauté du projet AT2TA réside dans cette unification, qui constitue également son principal défi technique.
|Enjeux et objectifs
L'objectif général du projet AT2TA est de proposer un framework de ML (machine learning) qui intègre le RA (raisonnement par analogie) et l’adapte à différents cas d'utilisation réels. La nouveauté du projet AT2TA réside dans cette unification, qui constitue également son principal défi technique. Cet objectif général se décompose en quatre défis : (C1) Combler le fossé entre le ML et le RCR (représentation des connaissances et le raisonnement). Nous pensons que le RA peut combler le fossé entre la RCR et l'apprentissage automatique et révéler leur potentiel en termes de transparence et d'explicabilité. (C2) Choisir le modèle d'analogie et apprendre des représentations appropriées pour le RA. Cet objectif vise à étudier les modèles formels d'analogie et à apprendre des espaces de représentation adaptés aux types d’objets et domaines d’application. En effet, les choix de modélisation et de représentations appropriées sont essentiels pour adapter le RA à divers domaines, et gérer des types d'objets divers, comme les textes et tableaux, ou des objets plus complexes, comme des données des patients ou des graphes de connaissances (KG). (C3) Adapter le cadre du RA à plusieurs domaines. Le troisième objectif du projet est l'utilisation du RA dans les domaines d’application suivants : le TAL (Traitement Automatique des Langues) et la compréhension du langage naturel, l’informatique médicale, l’ingénierie logicielle et la gestion et ingénierie des connaissances. (C4) Concevoir une plateforme pour le RA multi-domaine. Le quatrième objectif est de développer un outil de science ouverte pour créer, résoudre et raisonner avec des analogies, qui intègre les différentes méthodes et architectures proposées par les partenaires du consortium. |L'objectif général du projet AT2TA est de proposer un framework de ML (machine learning) qui intègre le RA (raisonnement par analogie) et l’adapte à différents cas d'utilisation réels. La nouveauté du projet AT2TA réside dans cette unification, qui constitue également son principal défi technique. Cet objectif général se décompose en quatre défis : (C1) Combler le fossé entre le ML et le RCR (représentation des connaissances et le raisonnement). Nous pensons que le RA peut combler le fossé entre la RCR et l'apprentissage automatique et révéler leur potentiel en termes de transparence et d'explicabilité. (C2) Choisir le modèle d'analogie et apprendre des représentations appropriées pour le RA. Cet objectif vise à étudier les modèles formels d'analogie et à apprendre des espaces de représentation adaptés aux types d’objets et domaines d’application. En effet, les choix de modélisation et de représentations appropriées sont essentiels pour adapter le RA à divers domaines, et gérer des types d'objets divers, comme les textes et tableaux, ou des objets plus complexes, comme des données des patients ou des graphes de connaissances (KG). (C3) Adapter le cadre du RA à plusieurs domaines. Le troisième objectif du projet est l'utilisation du RA dans les domaines d’application suivants : le TAL (Traitement Automatique des Langues) et la compréhension du langage naturel, l’informatique médicale, l’ingénierie logicielle et la gestion et ingénierie des connaissances. (C4) Concevoir une plateforme pour le RA multi-domaine. Le quatrième objectif est de développer un outil de science ouverte pour créer, résoudre et raisonner avec des analogies, qui intègre les différentes méthodes et architectures proposées par les partenaires du consortium.
WP1: Theory and practice of analogy based ML
Ce WP est consacré à la proposition et établissement d’un cadre fondamental et unificateur des analogies pour les différents défis d’AT2TA qui s'appuie sur un cadre axiomatique solide pour fournir des modèles formels d'analogie adaptés à différents domaines d'application. Il exploitera les méthodologies récentes de représentation, d'apprentissage et de génération pour aborder et résoudre les deux principaux problèmes de création et de résolution d'analogies.
WP2: Platform
Le principal objectif de la plateforme AT2TA est de servir de service centralisé de démonstration publique et de communication sur les logiciels et méthodes développées pendant le projet. Les utilisateurs cibles de la plateforme seront des chercheurs, des enseignants et industriels en IA/ML qui souhaitent exploiter le RA pour leurs cas d'utilisation propres.
WP3: Use cases and Applications
Ce WP est dédié à diverses applications du cadre de ML basé sur le RA que nous proposons de développer dans le projet, afin de montrer son impact bénéfique tant sur des aspects scientifiques (défis NLU et NLG), que sociétaux (défis biomédicaux et santé) et industriels (défis liés à l'ingénierie logicielle et des connaissances). Ces cas d’utilisation fournissent le cadre empirique pour évaluer et montrer le potentiel de la méthodologie et des outils développés dans les WP1-2.
|WP1 : Théorie et pratique de l’analogie par l’apprentissage automatique
Ce WP est consacré à la proposition et établissement d’un cadre fondamental et unificateur des analogies pour les différents défis d’AT2TA qui s'appuie sur un cadre axiomatique solide pour fournir des modèles formels d'analogie adaptés à différents domaines d'application. Il exploitera les méthodologies récentes de représentation, d'apprentissage et de génération pour aborder et résoudre les deux principaux problèmes de création et de résolution d'analogies.
WP2 : Plateforme
Le principal objectif de la plateforme AT2TA est de servir de service centralisé de démonstration publique et de communication sur les logiciels et méthodes développées pendant le projet. Les utilisateurs cibles de la plateforme seront des chercheurs, des enseignants et industriels en IA/ML qui souhaitent exploiter le RA pour leurs cas d'utilisation propres.
WP3 : Cas d’usage et applications
Ce WP est dédié à diverses applications du cadre de ML basé sur le RA que nous proposons de développer dans le projet, afin de montrer son impact bénéfique tant sur des aspects scientifiques (défis NLU et NLG), que sociétaux (défis biomédicaux et santé) et industriels (défis liés à l'ingénierie logicielle et des connaissances). Ces cas d’utilisation fournissent le cadre empirique pour évaluer et montrer le potentiel de la méthodologie et des outils développés dans les WP1-2.
WP4 : Coordination du projet
Ce WP est consacré aux tâches de gestion de projet (pilotage et calendrier des travaux et des collaborations au sein du consortium), la diffusion des résultats et des outils développés par AT2TA, et des activités d’envergure à travers des défis communautaires sous la forme d'une shared task à la fin de la durée du projet.
WP1: Theory and practice of analogy based ML
- Théorie de Galois pour des classifieurs compatibles avec le principe d’inférence analogique, qui établit une correspondance entre pairs de modèles d’analogies (espace des instances et des étiquettes) et les classifieurs (REF).
- Cadre unificateur des analogies numériques basé sur des moyennes généralisées, et qui subsume différentes notions d’analogie telles que l’analogie arithmétique, géométrique, hyperbolique, etc. (REF). Ce cadre initial a été étendu et soumis à une conf. de rang A.
- Nous avons aussi revisité la notion de compétence de base de cas,, et qui nous avons montré empiriquement que elle est en corrélation avec les performances de l'algorithme de prédiction CoAT.
- Conception d’une Logique de Paires, exploitant le fait que les proportions analogiques décrivent des classes d'équivalence. Cette logique permet à partir des pairs représentant des améliorations entre deux items, de cumuler les améliorations et d’augmenter le pouvoir créatif de l’analogie.
WP2: Platform
- Amélioration de la plateforme ANNa : mise en place d’une architecture logicielle faisant appel à un cluster de calcul pour la réalisation des tâches de détection et de résolution d’analogies morphologiques. Cette architecture permettra également aux utilisateurs de choisir quel modèle utiliser (e.g., CNNs, LLMs) pour réaliser cette tâche.
- Création de la plateforme KGPrune pour l’élagage de graphes de connaissances par analogie. KGPrune permet d’élaguer le graphe open source Wikidata (qui soutient Wikipédia) pour créer des sous-graphes thématiques (par ex. pour amorcer un graphe de connaissances d’entreprise ou pour étudier des sujets précis comme les œuvres d’art spoliées par les nazis pendant la 2nd Guerre Mondiale).
WP3: Use cases and Applications
- Création de différents jeux de donnés, e.g., Siganalogies, Wikidata Thematic Subgraph selection, and Copilote Translations
- Proposition d’une approche automatique d’élagage de graphes de connaissances à base d’analogies et frugale servant de base à la plateforme KGPrune
WP4: Project Coordination and dissemination
- Co-organisation des ateliers internationaux ATA 2022-2023 (co-localisés avec ICCBR) et IARM 2022-2023-2024 (co-localisés avec IJCAI)|WP1 : Théorie et pratique de l’analogie par l’apprentissage automatique
-Théorie de Galois pour des classifieurs compatibles avec le principe d’inférence analogique, qui établit une correspondance entre pairs de modèles d’analogies (espace des instances et des étiquettes) et les classifieurs.
-Cadre unificateur des analogies numériques basé sur des moyennes généralisées, et qui subsume différentes notions d’analogie telles que l’analogie arithmétique, géométrique, hyperbolique, etc. Ce cadre initial a été étendu et soumis à une conf. de rang A.
-Nous avons aussi revisité la notion de compétence de base de cas,, et qui nous avons montré empiriquement que elle est en corrélation avec les performances de l'algorithme de prédiction CoAT.
-Conception d’une Logique de Paires, exploitant le fait que les proportions analogiques décrivent des classes d'équivalence. Cette logique permet à partir des pairs représentant des améliorations entre deux items, de cumuler les améliorations et d’augmenter le pouvoir créatif de l’analogie.
WP2 : Plateforme
-Amélioration de la plateforme ANNa : mise en place d’une architecture logicielle faisant appel à un cluster de calcul pour la réalisation des tâches de détection et de résolution d’analogies morphologiques. Cette architecture permettra également aux utilisateurs de choisir quel modèle utiliser (e.g., CNNs, LLMs) pour réaliser cette tâche.
-Création de la plateforme KGPrune pour l’élagage de graphes de connaissances par analogie. KGPrune permet d’élaguer le graphe open source Wikidata (qui soutient Wikipédia) pour créer des sous-graphes thématiques (par ex. pour amorcer un graphe de connaissances d’entreprise ou pour étudier des sujets précis comme les œuvres d’art spoliées par les nazis pendant la 2nd Guerre Mondiale).
WP3 : Cas d’usage et applications
-Création de différents jeux de données, e.g., Siganalogies, Wikidata Thematic Subgraph selection, and Copilote Translations
-Proposition d’une approche automatique d’élagage de graphes de connaissances à base d’analogies et frugale servant de base à la plateforme KGPrune
WP4 : Coordination du projet
-Co-organisation des ateliers internationaux ATA 2022-2023 (co-localisés avec ICCBR) et IARML 2022-2023-2024 (co-localisés avec IJCAI)
-Le Prof. Yves Lepage (Waseda University, Japon) a passé le 1er semestre 2023-24 au Loria, en tant que chercheur invité. Cette visite a mené à une contribution majeure pour le projet par la définition d’un cadre unificateur des analogies numériques.
|-Deux mois après l’acceptation du projet, OpenAI a lancé son Large Language Models (LLM) ChatGPT avec des fonctionnalités qui chevauchent celles du projet AT2TA, notamment, permettant de résoudre certains types analogies. Après, d’autres LLMs sont apparus. Nous avons décidé de continuer à développer notre proposition plus frugale (comme démontré dans nos travaux) pour certaines downstream tasks telles que Semantic Table Interpretation, Semantic Role Labelling et KG prune. Toutefois, nous allons intégrer des composantes basées sur Llama 7b et 16b dans la plateforme pour comparaison, expérimentation et hybridation.
-Continuation des travaux sur les tâches liées aux KGs (e.g., information extraction, semantic table interpration, link prediction, graph summarization, alignment)
-Organisation d’une conférence internationale « Principia Analogiae » rassemblant les experts internationaux sur les analogies à Lisbonne en Juin 2025
-Shared task internationale qui sera organisée sur les jeux de données issus d’AT2TA et proposée à IJCAI-ECAI 2026
-Montage de projets internationaux Europe-Asie
Le raisonnement analogique est une capacité remarquable du raisonnement humain. Les proportions analogiques sont des déclarations de la forme "A est à B ce que C est à D". Elles sont la base de l'inférence analogique, utilisée dans des tâches d'apprentissage machine (ML) telles que la classification, l’aide à la décision et la traduction automatique avec des résultats compétitifs. De plus, l'extrapolation analogique peut résoudre des tâches de raisonnement difficiles, comme les tests de QI, et l'augmentation des données lors de l'apprentissage de modèles avec peu de données étiquetées. La particularité de l'inférence analogique est sa capacité unique à traiter simultanément similarités et dissimilarités. Ainsi, le raisonnement analogique relie les deux principaux axes de l'IA (représentation de connaissances et raisonnement, et apprentissage automatique), et contribue à la transparence et l'explicabilité de l'IA, car il est proche du raisonnement humain et permet des explications basées sur des exemples et contre-exemples.
Cela motive nos efforts pour développer un cadre de ML basée sur l'analogie et démontrer son utilité dans des cas concrets. Nous explorerons ce cadre pour l'apprentissage par transfert et le raisonnement à partir de cas, tirant parti de ce qui a été appris dans un domaine source afin d'améliorer le processus d'apprentissage dans un domaine cible. Les représentations sont la clé pour transférer le cadre analogique à d'autres contextes et pour traiter différents types d'objets. Cela demande une étude approfondie des espaces de représentation pour différents types d'objets, textuels et tabulaires mais aussi complexes et structurés (patients, graphes de connaissances et arbres syntaxiques abstraits). Le dernier objectif d’AT2TA est une plateforme pour détecter, résoudre et raisonner avec des analogies, illustrée par des applications en TAL, en santé, ainsi qu'en gestion des connaissances et génie logiciel, avec un impact majeur dans l'industrie.
Coordination du projet
Miguel COUCEIRO (Institut national de la recherche en informatique et automatique)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
LORIA Institut national de la recherche en informatique et automatique
IRIT Université Toulouse 3 - Paul Sabatier
Orange ORANGE SA
Centre de Recherche Inria de Paris
INSTITUT DES MALADIES GÉNÉTIQUES (IHU)
INFOLOGIC RECHERCHE & DEVELOPPEMENT
UNIVERSITE COTE D'AZUR UNIVERSITE COTE D'AZUR
Aide de l'ANR 669 867 euros
Début et durée du projet scientifique :
janvier 2023
- 42 Mois