Constitution, alignement, comparaison et exploitation d'ontologies géographiques hétérogènes – GEONTO
Le projet GEONTO porte sur l'intéropérabilité de données diverses relatives à l'information
géographique. Il vise plus précisément à faciliter des applications variées nécessitant de gérer cette
diversité, de l'intégration de schémas de bases de données à la requête intuitive de documents textuels
aussi bien techniques que grand public.
L'idée directrice du projet est que chaque document a été réalisé selon un certain point de vue qui se
révèle à travers le vocabulaire utilisé, et qui peut être reflété dans une ontologie. Les ontologies jouent
en effet un rôle clé en intégration de sources d'information multiples et hétérogènes. Elles constituent
des références formelles de concepts partagés par une communauté d'acteurs. Elles répondent aux
besoins de description et d'intégration cohérente de données. En tant que références de concepts
partagés par une communauté, elles sont un point d'entrée efficace des membres de cette communauté
à des informations diverses et hétérogènes indexées par les ontologies. En tant que références
formelles, elles sont utiles à l'automatisation de l'intégration de données.
La première partie du projet consiste à réaliser plusieurs ontologies du domaine géographique reflétant
différents points de vue. Pour cela, plusieurs approches s'appuyant sur différentes techniques de
traitement automatique du langage sont exploitées. La première consiste à analyser les spécifications
techniques de diverses bases de données de l'IGN avec des techniques lexico-syntaxiques de manière
à en extraire des ontologies ou à enrichir des ontologies existantes. La deuxième approche consiste à
exploiter des textes grand public issus de la médiathèque de Pau grâce à des techniques reposant sur la
recherche de termes associés aux noms de lieux cités dans les textes.
La deuxième partie du projet consiste à aligner et comparer les ontologies construites. Ces dernières
années, de nombreux travaux ont été réalisés en alignement d'ontologies. L'idée consiste à étudier
comment tirer parti au maximum de ces travaux, les adapter, les étendre à notre cas. Plusieurs
méthodes d'alignement seront utilisées, de la comparaison lexicale des termes associés aux concepts à
la réconciliation d'instances. L'accent des recherches sera mis sur le fait que les ontologies sont
fortement hétérogènes aussi bien en termes de qualité, de richesse, que de structure. Le but du projet
est aussi d'aller plus loin qu'un simple alignement d'ontologies, en mettant au point une méthodologie de
comparaison globale d'ontologies qui permette de décider dans quelle mesure deux ontologies reflètent
des points de vue peu ou très différents, et donc dans quelle mesure elles peuvent ou non être
fusionnées.
La troisième partie du projet a pour but d'exploiter les résultats des deux premières parties. La première
application visée est un portail d'accès aux nombreux documents textuels de la médiathèque de Pau,
qui tirera partie des ontologies réalisées et alignées pour mieux indexer à des fins d'interrogation et de
présentation les documents. La deuxième application est l'appariement de schémas de bases de
données géographiques diverses. Cette tâche est importante autant pour les utilisateurs que pour les
producteurs de ces données, mais elle se révèle être aussi une tâche difficile en raison de la grande
hétérogénéité des schémas.
Les travaux réalisés dans le projet seront expérimentés et les résultats obtenus validés sur des données
réelles du domaine géographique fournies par l'IGN et la médiathèque de Pau. Le sous-domaine étudié
sera celui de la topographie, qui, à lui seul, donne lieu à de très nombreuses et volumineuses bases de
données, typiquement jusqu'à une centaine de giga-octets en France, autant qu'à de très nombreux
documents textuels.
Coordination du projet
Chantal REYNAUD (Organisme de recherche)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
INSTITUT GEOGRAPHIQUE NATIONAL
Aide de l'ANR 422 212 euros
Début et durée du projet scientifique :
- 36 Mois