MDCO - Masse de données Connaissances Ambiantes

Syndication ouverte, simple et efficace de flux RSS – ROSES

Résumé de soumission

Internet est aujourd'hui de plus en plus exploité comme un support économique pour la
diffusion d'informations à une très large échelle. On peut distinguer les techniques de
diffusion existantes par leur degré de contrôle sur l'origine de l'information (auteur, site),
leur précision de diffusion (la fraction d'utilisateurs intéressés par l'information diffusée) et
le décalage de publication (le temps nécessaire pour qu'une nouvelle information soit
découverte par les utilisateurs). Par exemple, les messages “spam” sont non contrôlés, peu
sélectives et immédiates. L'utilisation de forums de “news” améliore la précision mais
nécessite la modération par un humain pour assurer la qualité de l'information diffusée.
Les pages web permettent de garantir l'origine (le site) et souvent la qualité de
l'information diffusée, mais souffrent d'un décalage de publication importante dû au temps
de rafraîchissement des moteurs de recherche.
Afin de réduire le décalage de publication, de nombreuses sites web appliquent la
technique de la syndication web pour diffuser des informations nouvelles. Cette technique
est fondée sur une approche de publication/souscription (publish/subscribe) où les
fournisseurs d'information publient des flux d'annotation appelés feeds qui diffusent
l'apparition d'informations nouvelles et les clients s'abonnent à ces flux publiés grâce à
des portails web et des interfaces utilisateurs (navigateurs web, lecteurs de messagerie
électroniques) spécialisés. Ce processus permet au final à chaque utilisateur de créer son
espace d'information personnalisé qui surveille (presqu'en temps réel) des ressources web
nouvelles (pages web, photos, messages de blog, fichiers audio...) publiées sur des sites
professionnels, associatifs ou personnels.
La syndication web est un moyen efficace de partage d'information sur le web, mais le
nombre de flux accroît tous les jours et les portails d'agrégation spécialisés comme
Blastfeed.com, Plazoo.com et Technorati.com sont de plus en plus confrontés aux mêmes
problèmes de passage à l'échelle que les moteurs de recherche traditionnels. Par exemple,
le nombre de flux indexés par technorati.com double approximativement tous les six
mois et a atteint 36 millions de flux en avril 2006 ce qui correspond 50 000 messages
nouveaux par heure (http://technorati.com/weblog/2006/04/96.html).
L'objectif du projet ROSES (Really Open Simple Efficient Syndication) est de généraliser le
principe de syndication web aux bases de données pour réaliser et étendre les services de
syndication actuels. Les deux formats de syndication principales, RSS et Atom, utilisent
XML comme syntaxe de publication et l'approche proposée par le projet ROSES est fondée
sur l'hypothèse que la syndication web peut être considérée comme un problème
spécifique de gestion et d'interrogation de données XML distribuées à large-échelle. En
particulier, nous allons explorer deux directions de recherche :
1. Les portails de syndication actuels sont fondés sur une architecture centralisée et
doivent supporter des charges de rafraîchissement et d'agrégation important. Dans ce
projet nous proposons d'appliquer et d'étendre des techniques d'évaluation et
d'optimisation de requêtes sur des données distribuées dans le contexte de la
syndication web. En particulier nous allons étudier leur déploiement dans une
infrastructure distribuée P2P. Techniquement, il s'agit d'utiliser et d'étendre les
technologies XML existantes pour réaliser des services de syndication plus avancés et
efficaces pour la génération, le filtrage et la composition de flux de données.
2. Les services de syndication actuels restent encore très limités et permettent
essentiellement le filtrage par mots clés, la concaténation et le tris temporel de flux. On
objectif du projet est de proposer des services d'agrégation nouveaux fondés sur des
techniques d'intégration de données XML. Le langage XQuery jouera un rôle important
dans l'implantation de ces services.
3. Finalement, au niveau industriel, l'objectif est d'étudier différentes applications fondées
sur les flux RSS et de définir les infrastructures et les services adaptés à ces
applications.

Coordination du projet

Bernd AMANN (Université)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Aide de l'ANR 294 689 euros
Début et durée du projet scientifique : - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter