Une Nouvelle Architecture "cloud" orientée vers des services Génériques d'Extraction de donnéeS – NuAGES
La société Internet Memory Research, basée à Paris, a développé les techniques d'acquisition, stockage et distillation de données à grandes échelle les plus avancées en Europe. De l'autre côté de la Manche, l'équipe du candidat à l'Université de Sheffield développe depuis des années une infrastructure reconnue au niveau mondial pour le traitement de données textuelles -- GATE, a General Architecture for Text Engineering (http://gate.ac.uk/).
En 2011, les défis soulevés par l'omniprésence des données publiées dans des espaces comme le Web ou les réseaux sociaux prennent une importance croissante, comme en témoignent le "Printemps Arabe", WikiLeaks et la croissance exponentielle de Twitter, Facebook et autres sites communautaires. Comment produire du sens à partir de telles masses d'information? Comment continuer à appliquer des méthodes journalistiques fondées? Comme une entreprise peut-elle déterminer les attentes de ses clients à partir de Téraoctets de documents textuels sans structure? Comment les scientifiques peuvent-ils améliorer leurs modèles, confrontés à des masses de publications toujours plus impressionnantes?
Le projet ANR NUAGES intègrera et étendra l'état de l'art en matière d'analyse de documents textuels à très grande échelle afin de fournir une réponse technologique à de telles questions, dans les domaines scientifiques, sociaux et économiques. Le résultat de ces travaux sera constitué entre autres de composants logiciels publiés en Open Source.
En terme d'innovation et de résultat en recherche/développement, le projet amènera à la recherche français les apports suivants:
• un centre d'excellence en matière d'analyse de large corpus de documents textuels (y compris issus du Web) dans une infrastructure "cloud"
• un accès central à des méthodes innovantes de traitement textuelles et une intégration forte à une plate-forme orientée vers les données à très grandes échelle.
• la mise en oeuvre des techniques développées, à des fins de démonstration, pour des applications comme la recherche sur le cancer (avec l'IARC Lyon) et la création de services à la demande de collecte et d'archivage.
Coordination du projet
Hamish CUNNINGHAM (INTERNET MEMORY RESEARCH)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
IMR INTERNET MEMORY RESEARCH
Aide de l'ANR 197 035 euros
Début et durée du projet scientifique :
- 24 Mois