DS07 - Société de l'information et de la communication

Étendre les clés de liage: extraction et raisonnement – ELKER

Résumé de soumission

Notre société demande de plus en plus un accès aux données produites par les diverses institutions : l’État, les universités, organisations culturelles, etc. Cela conduit à la publication de grandes quantités de données ouvertes, exprimées avec les langages du web sémantique (RDF). Une partie de la valeur ajoutée des données liées repose sur les liens identifiant la même entité dans différents jeux de données.Par exemple, ces liens peuvent identifier les mêmes livres ou articles dans différentes sources de données bibliographiques. Les liens permettent conjointement d’exploiter les contenus des sources de données et de faire de l’inférence entre jeux de données. Ainsi, trouver les liens d’identité entre des jeux de données est une tâche cruciale pour le web des données.

Une approche récente pour engendrer de tels liens est l’extraction et l’utilisation de « clés de liages ». Les clés de liage généralisent la notion de clé dans les bases de données pour deux raisons complémentaires : elles gèrent le format expressif qu’est RDF, et elles sont définies entre deux jeux de données. Le but d’ELKER est d’étendre les fondations et algorithmes sur les clés de liage vers deux directions indépendantes : l’extraction automatique de clés de liage à partir de données et le raisonnement avec des clés de liage.

En premier lieu, ELKER approfondira le parallèle entre l’extraction des clés de liage et l’analyse de concepts formels. Cela permettra d’étendre le type de clés de liage qui peuvent être extraites et de bénéficier de procédures optimisées d’extraction. Nous allons aussi étudier la dépendance entre clés de liage qui apparaissent naturellement lorsque les classes sont en relation. A cet effet, nous allons nous intéresser aux procédures définies pour l’analyse relationnelle de concept (RCA) et les adapter aux clés de liage. Nous allons aussi définir une sémantique de point fixe pour les clés de liages interdépendantes qui permettront de générer plus de liens. Finalement, nous développerons des heuristiques d'extraction optimisant les mesures de qualité utilisées pour la sélection des clés de liage, à partir de techniques développées pour la fouille de redescriptions.

En ce qui concerne le raisonnement avec les clés de liage, ELKER va étendre les techniques utilisées en logiques de descriptions pour raisonner avec des ontologies, des données et des clés de liage. Les méthodes des tableaux pour logiques de descriptions seront adaptées pour inférer de nouveaux axiomes et clés de liages à partir d’ontologies et de clés de liages existantes. Nous allons aussi nous intéresser à un processus de raisonnement distribué adapté au cas où les ontologies et les jeux de données ne peuvent pas être centralisés. De telles techniques pourraient être utilisées hors-ligne pour générer de nouveaux liens. Pour une génération de liens plus massive, nous transformerons les clés de liage en règles Datalog exploitables par une adaptation du moteur
d’inférence Datalog probabiliste. Cela permettra de gérer l’incertitude affectant les clés de liages et les axiomes

Les contributions théoriques d’ELKER seront implémentées et intégrées dans des logiciels maintenus par les partenaires et connectés entre eux.Tous les développements logiciels seront distribués en open source. De plus, les méthodes et outils seront évalués à la fois avec des jeux de données artificielles, spécialement élaborés pour tester les aspects spécifiques des clés de liages, ainsi qu'avec des jeux de données réelles.

Le consortium d’ELKER comprend trois équipes complémentaires, spécialistes du liage des données, des technologies et modèles du web sémantique, de l’analyse de concepts formels, et du raisonnement en logique de descriptions.

Coordination du projet

Manuel Atencia (Laboratoire d'Informatique de Grenoble)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LIG Laboratoire d'Informatique de Grenoble
LIASD Laboratoire d’Informatique Avancée de Saint-Denis
UMR 1142 Laboratoire d’Informatique Médicale et d'Ingéniererie des connaissances E-santé
Inria Nancy Grand Est Centre de Recherche Inria Nancy - Grand Est

Aide de l'ANR 500 976 euros
Début et durée du projet scientifique : septembre 2017 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter