RNTL - Réseau National en Technologies Logicielles 2005

SYSTEME DE RECHERCHE ET DE LECTURE ENCYCLOPEDIQUE SUR LE WEB INTEGRANT UNE INTERFACE EN LANGAGE NATUREL POUR TRAITER LES QUESTIONS FACTUELLES (Qui? Quoi? Quand? Où?) et NON-FACTUELLES (Comment? Pourquoi?) EN S'APPUYANT SUR UN SYSTEME DE CATEGORISATION MUL – LIRENET

Résumé de soumission

Le projet LireNet a pour objet de réaliser un système d?aide à la recherche de documents pertinents et de création de fiches de lectures sur le Web. Il s'agit de la recherche documentaire accessible à tous, différente de celle des grands moteurs Internet car ces derniers sont plus orientés sur le factuel que sur le savoir. Il a pour objectif de construire une méta encyclopédie permettant à différentes populations de lecteurs de s'auto-former en acquérant des connaissances par la recherche d'informations dans des bases dédiées ou filtrées sur la toile, et de se repérer grâce à une véritable cartographie du savoir (GPS-sémantique).
1) INTRODUCTION
La complexité de la tâche de recherche d'information sur le Web provient de l'antagonisme entre le gigantisme de la masse d'informations disponibles et les besoins précis et circonstanciés de l'utilisateur. Toutes les études d'usage montrent que les internautes ont besoin d'outils de repérage et d'assistance dans leurs recherches d'informations. Il y a donc place pour des outils intermédiaires qui peuvent faire office de passeurs .
Encyclopaedia Universalis dispose d?une base de savoirs qu?elle veut mettre à la disposition de tous, de manière intelligente et efficace. Sachant que cette base, malgré sa masse imposante, n?est que le résultat d?une sélection et que de ce fait elle n?a pas vocation à être exhaustive, il y a intérêt à y agréger d?autres contenus
Le projet LireNet se propose de fournir une interface de recherche et de lecture encyclopédique sur le Web avec une adaptation aux compétences et connaissances de l'utilisateur. Le système adoptera une progression de recherche allant du plus précis et validé (Encyclopédies) au plus large (le Web) en passant par des sites certifiés (partenaires).
Ce projet pré-compétitif, d?une durée totale de 24 mois, s'inscrit dans la deuxième thématique de l'appel d'offres et notamment la priorité 2.3. Il se propose de contribuer à cette priorité pour faire face aux enjeux de gestion de l'information et des connaissances sur les réseaux numériques.
Les mots-clés en rapport avec ce travail sont :
-Documents : fusion de données multiples et hétérogènes, lecture numérique sur écran.
-Web sémantique : moteur de recherche intelligent, indexation et catégorisation automatique des données, classification dynamique des résultats.
-Méta-données : modèle générique adapté au domaine encyclopédique et dictionnairique.

2) OBJECTIFS DE RECHERCHE
Les objectifs technologiques et scientifiques du projet LireNet sont multiples :
-Catégoriser les données en fonction d?une recherche encyclopédique basée sur les 5 W : « Who, When, What, Where, Why » et « How ». Il s?agit de créer un système de catégorisation multidimensionnelle (GPS-sémantique), adapté aux domaines de la connaissance et des savoirs;
-Adapter le moteur de recherche à la problématique encyclopédique (5 W) alors que l?état de l?art se limite à des recherches plein texte complétées, des dictionnaires de synonymes, et quelques règles syntaxiques ;
-Mixer et organiser les résultats et les contenus extraits de différentes sources en combinant une sélection de moteurs de recherche Internet et le système de catégorisation multidimensionnelle. Le défi est d?obtenir une efficacité de recherche supérieure aux méta-moteurs eux-mêmes (Copernic en est l?ancêtre) ;

Les innovations et verrous technologiques identifiés:
L?une des innovations principales se situe dans le GPS-sémantique (système de cartographie et de repérage dans l?univers du savoir) et demande de résoudre les problèmes techniques suivants:
1.la conception et la mise au point d?un modèle de catégorisation multidimensionnel (Système DUC proposé par Universalis);
2.l?extension et l?automatisation de cette catégorisation à des sources hétérogènes (bases de documents numériques XML et flux HTML référencés et validés sur le Web);
3.l?extension de cette catégorisation aux résultats d?une recherche sur le Web qui se

Université

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Aide de l'ANR 0 euros
Début et durée du projet scientifique : - 24 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.