CE23 - Intelligence artificielle

Graphes de connaissances décentralisés – DeKaloG

DeKaloG: graph de connaissances décentralisé

Les graphes de connaissances KG pénètrent dans notre vie quotidienne, nous indiquant ce qu'il faut acheter, ce qu'il faut apprendre, etc. Les grandes entreprises entretiennent des graphes de connaissances. Mais, l'accès à ces KGs est restreint et la manière dont ils sont construits et maintenus n'est pas transparente. Ceci ne permettent pas de construire de nouveaux KGs ou de construire par dessus. DeKaloG encourage la croissance d'un réseau public et décentralisé de graphes de connaissances.

Objectif et issuses

Les données liées LOD (Linked Open Data) promeut la vision d'un graphe de connaissances décentralisé mondial. Cependant, les KG du LOD sont confrontés à de problèmes techniques et non techniques: La taille des KG a considérablement augmenté, et les faibless de métadonnées disponibles. Ces problèmes entravent sérieusement la croissance des KG mondiaux et limitent leur utilisation dans des applications réelles.<br />DeKaloG suit la vision d'un KG global décentralisé qui peut être exploité pour répondre à des questions à l'échelle du web. Par exemple, «Quel est le nombre de scientifiques célèbres, hommes et femmes, par année de naissance ?«. Pour faire face aux problèmes de LOD, DeKaloG promeut les principes ATF (Accessibility, Transparency, and Findability) et une approche durable pour les mettre en œuvre :<br />(A)ccessibilité est le droit d'exécuter toute requête à tout moment sur un KG et d'obtenir des réponses complètes. Actuellement, l'accessibilité est mise à mal par des problèmes de disponibilité. Pour assurer la disponibilité et l'accès équitable, les fournisseurs de KGs existants restreignent l'accès en réduisant l'expressivité des requêtes ou mettent des politiques d'accès équitable grâce à des quotas de temps. DeKaloG vise à proposer un modèle pour fournir des politiques d'accès équitable aux KGs sans quota tout en assurant des réponses complètes. Cette propriété est cruciale pour permettre l'automatisation du web. Des résultats préliminaires sur la préemption web ouvrent une telle perspective, mais des problèmes de scalabilité subsistent. <br />La (T)ransparence garantit le droit de savoir qui a construit le KG, comment il a été construit et à partir de quelles sources. La transparence peut être définie à de nombreux niveaux. Le compromis entre la granularité de la transparence et la performance des requêtes reste une question ouverte. DeKaloG vise à proposer des modèles pour capturer différents niveaux de transparence, une méthode pour les interroger efficacement, et surtout, des techniques pour permettre l'automatisation de la transparence sur le web. <br />La (F)indabilité (Découvrabilité) est le droit de trouver efficacement des KGs pertinents pour une requête. DeKaloG vise à proposer un index durable pour réaliser le principe de trouvabilité. L'index lui-même est envisagé comme un KG accessible et transparent, indexant des KG accessibles et transparents. Pour l'index KG, l'accessibilité signifie que toute requête peut être exécutée sur l'index et obtenir des résultats complets. La transparence signifie qu'un fournisseur de KG peut savoir ce que l'index sait de son KG, y compris les statistiques de classement et la façon dont elles sont calculées, et surtout la reproductibilité de l'index. L'originalité est d'interagir avec l'index comme un KG et aussi de construire et maintenir l'index juste en interrogeant les KGs.

La méthodologie scientifique consiste en 4 tâches (en plus d'une cinquième tâche Task 0, liée à la gestion du projet et à la diffusion de ses résultats).

Tâche0: Gestion du projet: cette tâche vise à assurer le bon déroulement du projet.

Tâche1: graphes de connaissances orientés vers l'accessibilité : cette tâche vise à construire un datastore distribuée accessible par SPARQL. Grâce à la préemption web, nous avons démontré comment il est possible de fournir des politiques d'accès équitables aux KGs et d'obtenir des résultats complets pour les requêtes. Le défi scientifique est maintenant de démontrer comment la préemption web peut s'adapter à un grand volume de données et à un grand nombre de requêtes concurrentes, y compris les requêtes de mise à jour.

Tâche2: capacité de trouver des graphes de connaissances : cette tâche vise à construire un index sémantique de graphes de connaissances. Dans cette tâche, nous supposons que les KG indexés sont accessibles grâce à la tâche 1 et transparents grâce à la tâche 3. L'objectif est de découvrir des KG et de les indexer dans un KG accessible et transparent. L'originalité est d'interagir avec l'index comme un KG et aussi de construire et maintenir l'index juste en interrogeant les KGs.

Tâche3: Graphes de connaissances orientés transparence: la demande de transparence augmente dans de nombreux domaines. Cependant, il n'existe pas de représentation structurée et homogène des métadonnées/informations sur la transparence. Cela empêche son utilisation dans des applications réelles grâce aux technologies sémantiques. Notre objectif est de proposer une représentation intuitive, extensible et canonique, en visant un standard. Nous avons l'intention de concevoir des algorithmes et de fournir des outils permettant i) l'inclusion de métadonnées/informations de transparence interrogeables dans un KG, et ii) l'estimation et la vérification du degré de transparence d'un KG. Un défi important est de limiter les frais généraux pour les fournisseurs et les utilisateurs de KG.

Tâche4: Cas d'utilisation: ils soulignent comment les principes ATF permettent l'automatisation web des Knowledge Graphs. L'automatisation du web est la clé pour construire un écosystème durable de KGs.

Les différentes tâches sont fortement liées: (i)la transparence nécessite l'accessibilité, (ii)l'indexation et le classement nécessitent la transparence, et (iii) l'accessibilité et les applications et les cas d'utilisation nécessitent principalement l'indexation et le classement. Cependant, chaque tâche peut commencer immédiatement grâce aux résultats préliminaires et aux données déjà disponibles.

DeKaloG suit les meilleures pratiques du domaine du web sémantique en utilisant les standards (RDF, VoID, PROV-O, etc.). Tous nos résultats seront accessibles à tous selon les principes FAIR.

- Extension of the expressiveness of the SaGe preemptive server to handle aggregation queries. (Publications: 1 international conference paper (ESWC 2020, CORE A)).

- Extension of the expressiveness of the SaGe preemptive server to handle navigation requests (property path), (Publications: 1 international conference paper (ESWC 2020, CORE A) and a démonstration at ESWC2021).

- Improving the performance of the SaGe pre-emptive server by handling the count-distinct problem. (Publications: 1 international journal paper (Semantic Web Journal 2022)).

- Improving the performance of a SPARQL server by cooperative execution of SPARQL queries: (Publications: 1 international conference paper (DEXA 2020, CORE B)).

- State of the art on consistency and implementation of multi-version concurrency for SPARQL UPDATE queries in SaGe (Publications: Technical Report 2021).
- A technique for semantic index construction based on the preemptive server SaGe. (Publications: Technical report 2021).

- Definition of an ontology to complete the existing vocabularies for the description of - knowledge graphs in the semantic index.

- Definition of a framework for building a semantic index, based on the declaration of construction rules. This approach is based on formal definitions of tests and criteria in SPARQL and in a rule language extending this formalism.

- Implementation of this framework based on the CORESE semantic factory.

- Definition of rules for extracting the description of a knowledge graph according to three axes: extraction of existing data, verification and addition to this data, evaluation of the quality of the graph.

- Experimentation of the framework in a real situation on 200 bases.
- Wrote and submitted an article detailing this work and its results for a special call of the Journal of Web Semantics.

- Bibliographic study of transparency and the different notions that go with it

- Proposal of several general and formal definitions of transparency

- Proposal of a definition of transparency specifically adapted to KGs implemented with an RDF graph (Research report,2022)

- Julien Aimonier-Davat, Hala Skaf-Molli, Pascal Molli, Arnaud Grall, Thomas Minier. Online approximative SPARQL query processing for COUNT-DISTINCT queries with Web Preemption. Semantic Web Journal, 2022 ?hal-03563595?

- Julien Aimonier-Davat, Hala Skaf-Molli, Pascal Molli. SaGe-Path: Pay-as-you-go SPARQL Property Path Queries Processing using Web Preemption. Demo at Extended Semantic Web Conference (ESWC 2021), Jun 2021 (nominated best demo) ?10.1007/978-3-030-77385-4_4?. ?hal-03277622?

- Julien Aimonier-Davat, Hala Skaf-Molli, Pascal Molli. Processing SPARQL Property Path Queries Online with Web Preemption. Extended Semantic Web Conference (ESWC 2021), Jun 2021. ?hal-03277623?

-Arnaud Grall, Thomas Minier, Hala Skaf-Molli, Pascal Molli. Processing SPARQL Aggregate Queries with Web Preemption. 17th Extended Semantic Web Conference (ESWC 2020), Jun 2020, Heraklion, Greece. ?hal-02511819?

- Arnaud Grall, Hala Skaf-Molli, Pascal Molli, Matthieu Perrin. Collaborative SPARQL Query Processing for Decentralized Semantic Data. 31st International Database and Expert Systems Applications- DEXA 2020?10.1007/978-3-030-59003-1_21?. ?hal-03154375?

- Arnaud Grall, Thomas Minier, Hala Skaf-Molli, Pascal Molli. Traitement des requêtes d’agrégation sur un serveur SPARQL préemptif. 31es Journées francophones d'Ingénierie des Connaissances, Jun 2020, France. ?hal-02888207?

- Hala Skaf-Molli: Querying Decentralized Knowledge Graphs. 10th International Conference on Data Science Technology and Applications (DATA), Invited Talk. 2021 ?hal-03581892?

- Julien Aimonier-Davat,, Pascal Molli, Hala Skaf-Molli, Thomas Minier. SaGe: A Preemptive SPARQL Server for Online Knowledge Graphs, Technical Report LS2N, Université de Nantes. 2021 ?hal-03481686?

- Pierre Maillot, Olivier Corby, Catherine Faron, Fabien Gandon, Franck Michel. IndeGx: A Model and a Framework for Indexing Linked Datasets and their Knowledge Graphs with SPARQL-based Test Suits. 2022. Journal of Web Semantics (Soumis)

-Jennie Andersen, Sylvie Cazalens, and Philippe Lamarre. Research Report “Requirements and first models”, 2022.

L’objectif de DeKaloG s’inscrit dans la vision d’un Graphe de Connaissances (GC) global, décentralisé à l'échelle du Web. Ce graphe de connaissances doit permettre de répondre à des questions du type: «donnez-moi des informations sur les sociétés qui ont un lien avec Monsanto» ou «Quel est le nombre de scientifiques célèbres hommes et femmes par année de naissance?». Pour réaliser cette vision, DeKaloG met en avant 3 principes originaux et une approche pérenne pour les mettre en œuvre.

L'Accessibilité est le droit d'exécuter toute requête à tout moment sur un GC et d'obtenir des réponses complètes. Actuellement, l'accessibilité fait face à des problèmes critiques de disponibilité et de passage à l’échelle. Pour garantir une disponibilité et un accès équitable, les fournisseurs de GC existants restreignent l'accès en réduisant l'expressivité des requêtes ou en mettant en œuvre des politiques d'accès équitable basé sur des quotas de temps. En conséquence, de nombreuses requêtes ne donnent que des résultats partiels. DeKaloG a pour objectif de proposer un modèle offrant des politiques d'accès équitables aux GC, sans quota, tout en assurant des réponses complètes à toutes les requêtes. Cette propriété est cruciale pour permettre l’automatisation du Web, c’est-à-dire permettre aux agents ou aux robots d’interagir avec les GC. Nos résultats préliminaires sur la préemption Web ouvrent cette perspective, mais des problèmes de passage à l’échelle demeurent.

La Transparence est le droit de savoir qui a construit le GC, comment il a été construit et à partir de quelles sources. La transparence nécessite des informations sur la provenance des données et plus généralement des informations contextuelles qui restent aujourd’hui peu disponibles. La transparence peut être définie à plusieurs niveaux pouvant aller de l'ensemble du GC aux faits individuels au sein du GC. Le compromis entre la granularité de la transparence et les performances des requêtes reste un problème ouvert. DeKaloG a pour objectif de proposer des modèles permettant de capturer différents niveaux de transparence, une méthode d’interrogation efficace, et notamment des techniques permettant d'automatiser la gestion de la transparence sur le Web.

La Découvrabilité est le droit de trouver efficacement les GCs pertinents pour une requête, c’est-à-dire qui contiennent des faits pertinents pour la requête. Dans ce but, DeKaloG construit un index des GCs accessible et transparent. L’originalité de l’approche est de considérer l’index lui-même comme un GC accessible et transparent. Pour cet index, l’accessibilité signifie qu’il répond à tout moment à des requêtes expressives. Sa transparence permet à un fournisseur de GC de savoir ce que l’index sait sur son GC, incluant les statistiques de classement et leur calcul. Idéalement, elle permet aussi de reproduire l’intégralité de l’index. L'originalité est d'interagir avec l'index en tant que GC et également de construire et de maintenir cet index simplement en interrogeant les GC.

L’idée directrice des principes ATD est de construire un écosystème pérenne en considérant les GC comme des objets de premier plan. En effet, ces principes permettent l’automatisation du réseau de graphes de connaissances. De la même manière que les robots Wikipedia contribuent à la qualité de Wikipedia, les principes de DeKaloG permettent d'écrire des robots pour maintenir et améliorer le web des Graphes de Connaissance. La mise en place d’un graphe de connaissances mondial ouvert et durable est essentiel pour garantir un accès à la connaissance aux citoyens, aux organisations et aux entreprises.

Coordinateur du projet

Madame Hala Skaf-Molli (Laboratoire des Sciences du Numérique de Nantes)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Inria Centre de Recherche Inria Sophia Antipolis - Méditerranée
LIRIS UMR 5205 - LABORATOIRE D'INFORMATIQUE EN IMAGE ET SYSTEMES D'INFORMATION
LS2N Laboratoire des Sciences du Numérique de Nantes

Aide de l'ANR 652 615 euros
Début et durée du projet scientifique : février 2020 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter