Apprentissage Automatique de Transformations de documents semi structurés hétérogènes : Mise en correspondance de documents et conversion de documents – ATASH
Projet Exploratoire
ATASH
Apprentissage automatique de transformations de documents semi structurés hétérogènes : Mise en correspondance de documents et conversion de documents
LIFL ? MOSTRARE (Université Lille 3 - INRIA)
LIP6 (Université Paris 6)
XEROX (XRCE - Centre de recherche de Grenoble)
La maîtrise de l?hétérogénéité des descriptions et des formats liée à la diversité des sources d?information est au c?ur de l?accès au contenu informationnel et du développement de services pour le traitement et l?échange de contenu. Un des points clé de cette maîtrise est la connaissance des relations de correspondance entre les différents schémas, modèles de description ou structures logiques. Cette connaissance obtenue le plus souvent manuellement est actuellement un goulot d'étranglement pour les échanges dans les systèmes d'information hétérogènes et répartis. L?automatisation de ce processus de transformation de documents semi structurés est devenu un enjeu essentiel pour l?exploitation de contenu.
1. Objectifs de recherche
Le projet attaque le problème de l?hétérogénéité sous l?angle de l?apprentissage automatique des correspondances entre formats et schémas de documents semi-structurés. Un ensemble de méthodes issues de l?apprentissage seront développées pour traiter les différents aspects du problème. Elles serviront à construire des composants génériques capables de répondre aux besoins liés aux transformations. Ces outils seront testés sur une gamme de problèmes représentatifs issus de différents domaines (systèmes d?information répartis, recherche d?information, Web sémantique,?). Un prototype sera développé pour le traitement complet d?une application cible au c?ur de métier de XRCE : la conversion de documents d?entreprises (Word, PDF, etc) vers un format médiateur XML. Le projet s?attachera aussi au développement de ressources, notamment des corpus de documents, permettant l?évaluation des techniques pour des applications représentatives et de protocoles de tests et de mesures d?évaluation.
L?approche développée est « centrée documents », à ce titre nous considérons en premier lieu les problèmes d?hétérogénéités concernant des applications dans les domaines de la recherche d?information, du Web et des documents d?entreprise.
1.1 Domaine
Thématique réseaux d?information et de connaissances, l?axe 2.3 « Accès, organisation et traitement des données et des connaissances, Web sémantique ».
? Documents : gestion et interrogation, fusion de données hétérogènes, effacement de la rupture entre document numérique et papier
? Bases de données image, texte, entrepôts thématiques, recherche d?information, fouille de données, de texte, apprentissage
2. Objectifs industriels
L?objectif est de disposer d?une technologie permettant la transformation de documents semi structurés validée sur une large gamme de problématique. L?objectif interne à XRCE est la mise au point d?une chaîne complète de traitement pour la conversion de documents d?entreprise. Le marché visé est celui de la gestion du contenu. Il cible une large gamme d?applications identifiées dans de nombreux secteurs industriels.
3. Partenaires
Le partenariat est basé sur 2 équipes académiques et une équipe industrielle R&D dont les spécialités sont :
? LIFL ? Lille 3 : grammaires d?arbres, inférence grammaticale sur données arborescentes, wrappers, inférence de transformations à partir d?exemples.
? LIP6 ? Paris 6 : apprentissage statistique, recherche d?information, fouille de texte et transformation sur des documents XML
? XRCE ? Xerox : traitement de documents structurés, grammaires formelles et l?inférence grammaticale.
Les équipes ont chacune développé des technologies d?apprentissage pour des problèmes spécifiques de restructuration et sont véritablement pionnières dans le monde sur le sujet. XRCE fournit l?application cible du projet.
4. Retombées scientifiques
? Ensemble de méthodes permettant la modélisation, l?apprent
Coordination du projet
Université
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
Aide de l'ANR 254 271 euros
Début et durée du projet scientifique :
- 36 Mois