Blanc Inter II - SIMI 2 - Blanc International II - SIMI 2 - Science informatique et applications 2012

Semantic Web Data Interlinking in cross-lingual Environment – Lindicle

Résumé de soumission

Comme le web est de plus en plus présent dans nos vies, il y a un besoin croissant de pouvoir accéder aux différentes connaissances et données distribuées sur la toile. Les technologies du web sémantique permettent d'étendre le Web en permettant de publier de données structurées et interconnectées au travers de standards du W3C tels que RDF et OWL. Il existe de plus en plus d'initiatives visant à publier des données liées sur le web. Par exemple, le projet DBPedia fourni une représentation sémantique de l’encyclopédie Wikipédia. DBPedia contient une grande quantité de données annotées dans de nombreux langages naturels. Ce projet est devenu le coeur du web des données.

Cependant l'interconnexion inter-langue des donnée reste marginale à cause de deux raisons. La première est que les liens interconnectant les jeux de données représentent seulement 5% du nombre de triples disponibles sur le web des données. La seconde raison est qu'il existe un déséquilibre du nombre de données disponibles selon les langues. Par exemple, sur wikipédia, il y a seulement 382000 articles en chinois ce qui représente seulement 33% du nombre d'article en français et 10% du nombre d'articles en anglais.

Le liage des données interlingue consiste à découvrir des liens entre données issues de jeux de données annotés dans des langues différentes. Il permet non seulement d'améliorer l’internationalisation et la globalisation des données sur e web mais permet également de faciliter le traitement des données interlingues dans des applications de recherche d'information ou de traduction.

Le but de ce projet est de développer la technologie pour lier les données et aligner les ontologies dans des environnements interlingue en s'appuyant sur des banques de connaissances disponibles sur le web. Les challenges auquel le projet doit faire face sont 1) Comment identifier les les caractéristiques clés qui permettent de détecter les liens entre des ressources décrites dans différents langages; 2) Comment trouver effectivement les liens entre les données interlingues; 3) Comment réutiliser les liens existant dans dans des banques de connaissances multilingues pour améliorer le liage.

La réussite de projet fixera des bases pour la réalisation d"un web des données réellement multilingue.

En combinant les compétences en alignement d'ontologies, extraction des connaissance et d'apprentissage artificiel des deux équipes impliquées, les contributions du projet seront :
- La découverte de liens entre banques de connaissances écrites dans des langues différentes
- Le développement d'algorithmes de liage de données et d’alignement d'ontologies pour environnement multilingues.
Les solutions seront évaluées sur des jeux de données dans différentes langues sur les thèmes de l'actualité, du cinéma, et des encyclopédies. L'intérêt de la solution sera illustré au travers d'application à la recherche d'information multilingue.

Jérôme EUZENAT (Institut National de Recherche en Informatique et en Automatique - Centre Inria Grenoble Rhône-Alpes)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Tsinghua University Tsinghua University
Inria Grenoble Rhône-Alpes - Equipe EXMO Institut National de Recherche en Informatique et en Automatique - Centre Inria Grenoble Rhône-Alpes

Aide de l'ANR 254 590 euros
Début et durée du projet scientifique : décembre 2012 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.