TLOG - Technologies logicielles

Méthodes Automatiques pour la Détection de Spamdexing sur les Grands Réseaux d&rsquo,Information. – MADSPAM 2.0

Résumé de soumission

Après avoir envahi les messageries électroniques, le spam s&rsquo,attaque à toutes les applications web qui reposent sur l&rsquo,ouverture et le partage de ressources. Les applications du web 2.0 avec en tête les plateformes de Blog sont particulièrement visées. Le phénomène devient tellement important (le trafic sur les plateformes hébergées par BlogSpirit par exemple est composé à 80 % de spam) que le modèle économique de nombreuses applications du web 2.0 est menacé. Le projet a pour objectif de développer une bibliothèque de méthodes pour la détection de spamdexing (dénomination du spam sur le web, et plus généralement dans les applications web 2.0) dans une large gamme d&rsquo,applications web et web 2.0. Ces méthodes visent à être génériques et paramétrables, de façon à être facilement adaptables aux nouvelles problématiques du spam sur les grands graphes d&rsquo,interconnexion du web 2.0 qui touchent les sites collaboratifs et les réseaux sociaux. Deux applications cibles Deux applications cibles sont visées : le spamdexing sur le web pour les moteurs de recherche et le spam sur les blogs. L&rsquo,application Web est portée par France Telecom via le moteur d'Orange « Voila ». L&rsquo,application Blog est portée par une PME, premier acteur Français en B2B sur les plateformes blogs, BlogSpirit. Une deuxième PME, KartOO, spécialiste de la visualisation pour le web sémantique et les applications collaboratives, développera des outils de visualisation de grands graphes et de navigation facilitant l'administation antispam en back-office. Objectifs industriels Le premier objectif industriel est de disposer rapidement d&rsquo,une technologie anti-spam de pointe intégrée au moteur de recherche d&rsquo,Orange et à la plateforme Blog de BlogSpirit. Au delà de ces applications, un second objectif est de développer une bibliothèque d&rsquo,outils permettant de détecter les variétés de spam sur un ensemble d&rsquo,applications collaboratives. Ces dernières sont dans la vision stratégique d&rsquo,Orange. Le projet est organisé en deux grandes étapes. Un ensemble d&rsquo,algorithmes de base ciblés sur le spam web et le spam blog sera tout d&rsquo,abord développé pour être intégré dans les produits moteur de recherche « Voila » et la plateforme BlogSpirit à échéance de 18 mois. Suite à cette intégration, une librairie d&rsquo,algorithmes intégrant des techniques très récentes de l&rsquo,état de l&rsquo,art et visant à couvrir une très large gamme de problématiques du spam sera développée. Elle sera intégrée à échéance de T0+30 mois. Les méthodes feront l&rsquo,objet de tests et d&rsquo,évaluations à large échelle sur des données collectées par les acteurs industriels du projet. Ces évaluations auront lieu dès l&rsquo,issue de la première phase du projet (18 mois) et se poursuivront avec des méthodes plus sophistiquées et sur des données nouvelles jusqu&rsquo,à la fin du projet. Objectifs scientifiques Les algorithmes de détection développés dans le projet reposent sur deux grandes classes de méthodes qui sont l&rsquo,apprentissage statistique et l&rsquo,analyse combinatoire dans les grands graphes. Deux équipes du LIP6 respectivement spécialistes de ces deux thématiques interviennent dans le projet. France Telecom R&D est également spécialiste des deux domaines. Les deux groupes (LIP6 et FTR&D) sont en particulier engagés dans la compétition AIRWeb soutenue par les grands acteurs du domaine du web, qui réunit les acteurs de la lutte contre le Spamdexing. Verrous Le projet s&rsquo,attaque à plusieurs challenges technologiques et scientifiques : - La maîtrise de la volumétrie des données web et blogs qui pose d&rsquo,énormes problèmes algorithmiques et d&rsquo,infrastructure. - La robustesse et l&rsquo,adaptativité des méthodes développées qui doivent rester performantes sur des données à très forte variabilité. - La couverture offerte par l&rsquo,ensemble des algorithmes développés qui doivent permettre de s&rsquo,adapter très rapidement à de nouvelles formes d&rsquo,attaques. - Au niveau algorithmique, les méthodes opérationnelles actuelles sont limitée à des formes spécifiques de spamdexing. La recherche dans le domaine débute. Il faut développer des méthodes capables de traiter à la fois des données de contenu (locales aux pages) et des données relationnelles caractéristiques du réseau (relations entre items). Les travaux permettant ces traitement structure-contenu sont très récents et constituent un véritable challenge scientifique. - L&rsquo,analyse des différentes stratégies des spammeurs et le suivi de la propagation nécessite l&rsquo,élaboration de nouveaux modèles et est également un sujet très actif. Objectifs économiques Les deux PME sont sur un marché B2B et le projet leur permettra d&rsquo,enrichir leur offre respective et de s&rsquo,ouvrir pour BlogSpirit sur un marché grand public. France Telecom est à la fois sur le marché grand public avec son moteur « voila » et sur le marché B2B avec les services Web 2.0 offerts aux grands comptes. Sa stratégie actuelle le conduit à développer de nouveaux services autour du Web 2.0 et des réseaux sociaux. Assurer la fiabilité de ces services est essentiel pour l&rsquo,ensemble des acteurs industriels du projet.

Coordination du projet

Tanguy URVOY (GE (grande entreprise))

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Aide de l'ANR 704 774 euros
Début et durée du projet scientifique : - 30 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter