Résumés génériques de flux de données – MIDAS
De plus en plus d'activités humaines sont supportées par des systèmes informatiques. Ceci génère de
plus en plus de données à traiter pour analyser et superviser ces activités. Lorsque le volume des
données croît, il devient très onéreux – voire impossible – de stocker sur disque les données disponibles
avant de les analyser : il faut alors les traiter à la volée comme des flux de données. De plus, de
nombreuses nouvelles applications génèrent elles-mêmes directement des flux de données produits par
un grand nombre de capteurs (prévision météo, études environnementales, trafic routier, médecine,
centrales de production d'énergie, …).
Afin de faire face à cette inflation des données disponibles, de nombreux travaux de recherche ont été
réalisés aux USA pour développer des méthodes et des outils de traitement à la volée de flux de
données structurés (par opposition aux flux de données audio ou vidéo). Une bonne synthèse de ces
travaux peut être consultée dans le livre récent de C.Aggarwal “Data Streams: Models and Applications”,
édité chez Springer en 2007. Deux directions principales ont été explorées : (1) le développement de
Systèmes de Gestion de Flux de Données (Data Stream Management Systems en anglais) qui
permettent d'adresser des requêtes à des flux, (2) le développement de méthodes de fouille de flux de
données qui s'appliquent directement aux flux sans les mémoriser. La caractéristique principale de ces
approches est que tous les traitements sont réalisés à la volée sans stocker sur disque le contenu des
flux. La solution communément retenue pour atteindre cet objectif est d'appliquer les requêtes ou les
algorithmes de fouille sur une partie des flux, définie par une fenêtre glissante contenant les informations
les plus récentes.
Cependant dans beaucoup d'applications, il est nécessaire de conserver une vue historique des flux, par
exemple pour restituer des informations agrégées historiques sur le contenu des flux ou encore pour
détecter des comportements anormaux dans les systèmes analysés. Pour ces applications, l'utilisation
de fenêtres glissantes sur les flux empêche d'obtenir l'information nécessaire : il faut donc garder trace
de l'historique des flux de données en construisant et maintenant à jour, à la volée, des résumés des
flux.
Le projet MIDAS est un projet de type 'Recherche Fondamentale' dont l'objectif est d'étudier,
développer et illustrer de nouvelles approches de résumés de flux de données. Il s'attaque aux
verrous suivants concernant la construction de résumés :
?? Les résumés sont construits à partir de flux infinis mais doivent avoir une taille fixe ou peu
croissante ;
?? La construction des résumés doit être incrémentale (réalisée 'à la volée') ;
?? Le temps CPU alloué au traitement de chaque élément du flux doit être compatible avec le
taux d'arrivée de ces éléments ;
?? Les résumés doivent couvrir l'ensemble de l'historique du flux, mais aussi permettre d'en
extraire des résumés portant sur n'importe quelle partie de l'histoire du flux.
Le projet MIDAS réunit à la fois des partenaires académiques et industriels. Les partenaires
académiques sont déjà actifs dans le domaine de la gestion et de la fouille de flux de données. Les
partenaires industriels sont de très grandes entreprises (France Telecom et Electricité de France) qui
doivent faire face à une forte augmentation des données disponibles pour analyser et superviser leur
activité. Ces dernières fourniront au projet des problématiques et des données pour orienter les
recherches et permettre l'évaluation des approches développées.
Le projet MIDAS s'inscrit dans l'axe thématique 2 de l'appel MDCO : « Algorithmes pour le traitement
massif de données ».
Coordinateur du projet
Georges HEBRAIL (Autre établissement d’enseignement supérieur)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
Aide de l'ANR 723 595 euros
Début et durée du projet scientifique :
- 36 Mois