COllaboration, CLassification, Incrémentalité et COnnaissances – Coclico
COllaboration, CLassification, Incrémentalité et COnnaissances
Coclico est un projet de recherche visant à étudier et proposer une méthode générique innovante permettant une analyse multi-échelle de grands volumes de données spatio-temporelles fournies en continue de qualité très variable, mettant en œuvre une approche multistratégie incrémentale guidée par des connaissances. Elle garantira un objectif de qualité finale prenant en compte la qualité des données et celles des connaissances.
Une méthode d'extraction de connaissances adaptées à la complexité et à l’évolution rapide de grandes masses de données spatio-temporelles multisources
Le projet Coclico vise à développer des méthodes automatiques ou semi-automatiques adaptées à la complexité et à l’évolution rapide de grandes masses de données spatio-temporelles multisources, en s’appuyant sur des méthodes avancées issues de la fouille des données et de l’apprentissage artificiel pour l’analyse et le suivi de phénomènes complexes. Il se doit donc de répondre à nombreux défis dont entre autres :<br />Les données constituent d’énormes volumes et le problème du passage à l’échelle des algorithmes est primordial notamment pour le développement des approches incrémentales permettant une mise à jour continue des modèles.<br />Les données peuvent contenir des aberrations ou des erreurs dont la détection et la prise en compte dans le processus d’analyse sont complexes. <br />Les processus naturels et anthropiques sont complexes et en constante évolution, les données utilisées sont dynamiques. <br />L’analyse se fait à plusieurs niveaux sémantiques : il faut en effet être en mesure de mener une analyse à un niveau global autant que local et d’articuler ces niveaux. <br />Les connaissances à la fois sur les phénomènes et processus à étudier et sur les méthodes à mettre en œuvre dans ce but sont complexes et peu formalisées.
Quatre facettes originales
- La méthode sera multistratégie et multi-échelle. Nous proposons d’étendre les méthodes collaboratives classiques afin de pourvoir utiliser de nouvelles familles d’algorithmes (segmentation, ranking ...). L’objectif est d’améliorer la qualité des résultats et de permettre une analyse multi-échelle des données
- Elle sera incrémentale. Il n’est plus envisageable de reconstruire ex nihilo la connaissance sur le phénomène étudié à chaque nouvelle donnée. Nous proposons de mettre en œuvre une méthode incrémentale permettant la confrontation de la connaissance extraite à de nouveaux résultats d’expériences ou à de nouvelles hypothèses sur les données. L’objectif est de permettre la remise en question continue de ces connaissances extraites afin de répondre précisément aux besoins des scientifiques et thématiciens
- Elle sera guidée par la connaissance. Pour réduire l’implication de l’utilisateur dans le processus, il est nécessaire d’utiliser ses connaissances sur le entités et leur relations mutuelles, de définir leurs représentations et les mécanismes nécessaires à leur extraction et de leur reconnaissance. Nous proposons d'étudier et mettre en œuvre une telle base de connaissances. L’objectif est permettre de guider mais aussi de remettre en cause le processus collaboratif en fonction de cette connaissance
- Elle sera guidée par la qualité des données et des connaissances : Nous proposons d’étudier et mettre en œuvre une méthode intégrant une base de connaissance sur le processus collaboratif lui-même et permettant de choisir au mieux les données à traiter en fonction de leurs qualités propres et relatives mais aussi de sélectionner les méthodes de prétraitement les plus adaptées, les « meilleures » méthodes monostratégies et la meilleure configuration de collaboration multistratégie pour celles-ci. L’objectif est de rendre la méthode robuste face au bruit et aux erreurs de formalisation dans les connaissances du domaine
à venir
à venir
à venir
La fouille de données est un maillon important dans la chaîne de traitements des données vers les connaissances. Ainsi, par exemple, appréhender et comprendre les processus de fonctionnement et de développement des systèmes plus ou moins anthropisés à diverses échelles spatiales et temporelles (urbanisation et pression sur les terres, érosion de la biodiversité etc.) à partir de données satellites ou autres devient un élément majeur dans différents domaines tels l’étude de l’environnement ou les politiques publiques d’aménagement du territoire. Or les techniques d’analyse actuelles sont de plus en plus limitées face à l’avalanche actuelle de données hétérogènes souvent incomplètes voire imprécises et de plus en plus souvent fournies en continu au fil de l’eau.
Or si les caractéristiques des méthodes de fouille sont en général bien connues et appréhendées par l’analyste-statisticien ou par l’informaticien, il n’en est que rarement de même pour l’utilisateur. Ainsi, bien souvent, il est nécessaire d’essayer plusieurs algorithmes avec différents paramètres afin de déterminer lequel répond le mieux à la question. L’utilisateur doit être attentif à l’indéterminisme de beaucoup de méthodes de classification non supervisée. De plus, il est nécessaire de tenir compte de la qualité variable des données brutes et prétraitées, de la robustesse des méthodes d’apprentissage face au bruit et de la sensibilité des résultats à des changements dans les méthodes ou les paramètres d’acquisition/construction des données afin de proposer des stratégies de nettoyage et de prétraitement des données plus adéquates. Enfin, les données étant fournies en continue, s’ajoutent une dimension dynamique et le besoin d’une capacité d’apprentissage incrémental dans un contexte changeant.
Il n’existe pas à ce jour de moyen infaillible permettant de choisir au mieux la méthode et ses paramètres car ce choix est fortement lié au domaine d’application et à des connaissances a priori sur celui-ci et sur les données à traiter. Une approche de plus en plus proposée pour contourner ce problème est basée sur l’intuition que les méthodes sont complémentaires ou du moins peuvent se corroborer. Ainsi, des mécanismes de confrontation et d’unification des résultats, provenant de méthodes et de données diverses peuvent permettre de proposer à l’utilisateur une synthèse pertinente de ceux-ci. Une voie prometteuse dans ce domaine se base sur la collaboration entre différentes méthodes.
Néanmoins, on apprend d’autant mieux que ce qu’on aborde se rattache à ce qu’on connaît déjà et que l’objectif de la tâche est connu et compris : il n’est pas souhaitable que l’interprétation des données soit faite par une personne ignorante de la thématique. Ainsi, le processus d’interprétation nécessite bien souvent la présence d’un expert-thématicien mais est, malheureusement, très gourmand en temps. Faciliter cette implication en introduisant directement la connaissance de cet expert dans ce processus nécessite de modéliser et formaliser les classes/objets du monde réel, de définir leurs représentations possibles dans l’espace des données et enfin d’étudier et construire les mécanismes d’extraction et de labellisation de ces objets par rapport à ces connaissances.
COCLICO est un projet de recherche visant à étudier et proposer une méthode générique innovante permettant une analyse multi-échelle de grands volumes de données spatio-temporelles fournies en continue de qualité très variable, mettant en œuvre une approche multistratégie incrémentale dans laquelle la collaboration entre les différentes méthodes de fouille de données sera guidée par des connaissances du domaine thématique (Géosciences, Géographie, Géomatique et Télédétection) formalisées en ontologies et du domaine de l’analyse (connaissances sur les méthodes), et garantissant un objectif de qualité finale prenant en compte la qualité des données et celles des connaissances.
Coordination du projet
Pierre Gancarski (Laboratoire des Sciences de l'Image de l'Informatique et de la Télédétection)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
LIPN Laboratoire d'Informatique de Paris Nord
AgroParisTech / INRA AgroParisTech / INRA
ESPACE DEV ESPACE DEV
LIVE Laboratoire Image, Ville, Environnement
LSIIT Laboratoire des Sciences de l'Image de l'Informatique et de la Télédétection
Aide de l'ANR 1 018 721 euros
Début et durée du projet scientifique :
October 2012
- 48 Mois