MDCO - Masse de données Connaissances Ambiantes 2007

Conditional Random fields pour le TAL – CROTAL

Résumé de soumission

Le projet CRoTAL (Conditional Random Fields pour le TAL) a pour objectif d'étudier et de développer de
nouvelles techniques pour la manipulation de grandes masses de données textuelles. Les linguistes
familiers de la manipulation de corpus savent à quel point leur annotation manuelle est longue,
fastidieuse, et sujette à l'erreur. Quand c'est possible, on essaie maintenant autant que possible de
favoriser des approches issues de l'apprentissage automatique. Le projet CroTAL propose de se
concentrer plus particulièrement sur une technique d'apprentissage automatique particulièrement
innovante : celle des Conditional Random Fields (CFRs) ou « champs conditionnels aléatoires ». Les
CRFs sont une famille de modèles graphiques introduits dans le contexte de la linguistique informatique.
Ils permettent d'annoter des données à partir d'exemples de données déjà annotées. Ils se situent
actuellement au meilleur niveau dans plusieurs domaines, notamment pour l'extraction d'information et la
structuration des données textuelles. Mais le modèle des CRFs doit aussi être affiné et optimisé pour
pouvoir être efficacement utilisé sur des très grands ensembles de données ou sur des données
structurées.
Plus précisément, nos objectifs principaux sont les suivants :
· identifier des tâches pertinentes d'un point de vue linguistique, et pouvant se formuler en termes
d'annotation
· développer de nouveaux algorithmes pour efficacement traiter ces tâches avec des CRFs
· appliquer ces algorithmes à des corpus réels de différentes natures (textuels et arborés), afin
d'annoter et d'extraire de la connaissance à partir de ces corpus
Notre objectif général est donc d'enrichir des données textuelles en apprenant à les annoter. Nous
prévoyons de travailler sur des corpus français aussi bien qu'anglais. Le projet n'envisage pas la
production de nouvelles resources linguistiques (d'autres projets poursuivent cet objectif, et nous
travaillerons en collaboration avec certains d'entre eux) mais plutôt la production d'outils de traitements
de corpus (textuels et arborés) en tenant compte de resources existantes.
A côté de tâches traditionnelles dans le domaine du Traitement Automatique du Langage (TAL) comme
la reconnaissance d'entités nommées ou l'identification de rôles sémantiques, nous prévoyons de nous
attaquer à des tâches plus originales requérant des niveaux d'annotations plus profonds, comme la
classification sémantique ou la transformation de structures. Ces annotations rendront possibles de
nouvelles formes d'exploration et d'interrogation de bases de données textuelles. Les utilisateurs de ces
bases pourront, non seulement retrouver des portions de textes correspondant à une requête linéaire de
surface (par exemple une séquence de mots dont on donne les étiquettes syntaxiques) mais aussi des
portions de textes correspondant à des structures sémantiques plus profondes (par exemple un
« événement dont l'agent est d'un certain type », etc.). Les optimisations d'algorithmes ou d'outils
existant que nous voulons développer ont pour but le passage à l'échelle des traitements envisagés.
Le projet est basé sur des technologies déjà disponibles, développées par deux des partenaires du
consortium qui ont une expertise de longue durée en apprentissage automatique (ENST et Lille 3LIFL)
et seront mises en oeuvre sur des corpus réels par des équipes qui ont une grande expérience du TAL
(LIPN et Lille3STL).
Le projet sera l'occasion pour ces équipes qui se connaissent tout en appartenant à
des communautés différentes, d'échanger leurs expériences et de participer à des challenges
internationaux sur des données partagées.
Ces sujets sont particulièrement importants quand on mesure l'extraordinaire croissance actuelle des
bibliothèques numériques, et du web en général: il est particulièrement important de développer des
outils et des techniques librement disponibles, et indépendantes d'intérêts privés.

Organisme de recherche

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

UNIVERSITE DE PARIS XIII
CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE - DELEGATION REGIONALE ILE-DE-FRANCE SECTEUR PARIS A

Aide de l'ANR 205 580 euros
Début et durée du projet scientifique : - 24 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.