FRAL - AAP franco-allemand

Corpus syntaxique de référence pour le français médiéval – SRCMF

Corpus syntaxique de référence pour le français médiéval

*

Fournir à la communauté une ressource enrichie pour le français médiéval et des outils

Le projet SRCMF est né du constat qu’il n’existait pas, pour le français médiéval, de corpus annoté syntaxiquement, contrairement à d’autres langues, l’anglais par exemple. Nous avons donc créé une telle ressource afin de la mettre à disposition de la communauté linguistique, d’une part pour alimenter les recherches syntaxiques, d’autre part pour permettre de créer des outils de traitement automatique de l’ancien français. L’annotation a été réalisée sur les deux bases de français médiéval actuellement les plus importantes (environ 3 millions de mots chacune), la Base de Français Médiéval (ENS Lyon: ICAR, UMR 5191) et le Nouveau Corpus d’Amsterdam (ILR, University of Stuttgart), selon un modèle syntaxique unifié. Ce modèle, de type dépendanciel, a été élaboré dans le cadre du projet SRCMF. Le projet a en outre permis de compléter l’étiquetage morpho-syntaxique des textes. Outre la mise à disposition d’une ressource de 260 000 mots étiquetés morpho-syntaxiquement et annotés syntaxiquement, le projet a permis le développement et l’adaptation d’outils réexploitables. L’ensemble des ressources téléchargeables est en ligne sur le site http://srcmf.org, et le prototype d’une interface en ligne utilisant la plateforme TXM a été développée à l’ENS de Lyon : http://txm.risc.cnrs.fr/demo

Les deux aspects complémentaires du projet (enrichissement des textes et développement d’’outils) ont donné lieu à des développements parallèles.
a) Annotation des textes :
- élaboration du modèle d’annotation, de type dépendanciel
- Sélection des textes à annoter selon 2 critères majeurs : diversité (date, genre, forme, dialecte) et qualité de l’édition
- Annotation syntaxique des textes et étiquetage morpho-syntaxique des textes qui ne l’étaient pas encore.
- Réalisation d’un guide d’annotation/ interrogation.
- Mise en place d’un forum de discussion [http://inferno.philosophie.uni-stuttgart.de/~srcmf/forum] consacré au modèle d’annotation et aux problèmes rencontrés lors de l’annotation
b) Dévelopement d’outils :
- développement de fonctionnalités du logiciel NotaBene [https://sourceforge.net/projects/notabene/] utilisé pour l'annotation manuelle des textes (avec une édition au format XML)
- Module TIGERSearch de TXM
- Module d’importation de corpus TIGERSearch dans TXM
- Module de génération de concordances syntaxiques intégré à TXM
- Portail TXM/SRCMF prototype

Les résultats majeurs du projet sont :
- un corpus d’ancien français d’environ 260 000 mots étiquetés morpho-syntaxiquement et annotés syntaxiquement,
- l’élaboration d’un modèle syntaxique utilisable sur d’autres corpus, pourvu d’un guide détaillé des étiquettes
- le développement ou l’adaptation d’outils d’annotation et d’exploration
- un site
- l’aménagement de la plateforme TXM pour l’interrogation en ligne du corpus SRCMF

*

- Plusieurs études, déjà publiées ou en cours, s’appuient sur le corpus. Le corpus permet des études sur des phénomènes qui ne pouvaient auparavant être étudiés de manière massive, faute d’enrichissement adéquat des textes.
- Une exploitation possible dans le cadre du projet Grande Grammaire Historique du Français (http://www.unice.fr/bcl/rubrique127)
- Développement d’outils (NotaBene, compatibilité NotaBene-TIGERSearch, export sous forme de concordances dans TIGERSearch, intégration de TIGERSearch à TXM)
- Soumission d’un nouveau projet – CoSToMeF – auprès de l’ANR (appel franco-allemand 2012, sous la direction de A. Stein, ILR Stuttgart et S. Heiden, ENS Lyon): le corpus SRCMF comme corpus d’apprentissage pour le développement d’outil d’annotation par apprentissage.
- collaboration en cours au projet ISWOC – Information Structure and Word Order Change in Germanic and Romance Languages [http://www.hf.uio.no/ilos/english/research/projects/iswoc/] : import de l’annotation morpho-syntaxique et syntaxique de la Queste del Saint Graal (corpus SRCMF) dans le corpus ISWOC, dont le modèle linguistique est dépendentiel aussi. Malgré des différences linguistiques entre les 2 modèles, une séries de règles de conversion a été établie pour adapter les structures SRCMF à celles requises par le modèle ISWOC. Des identifiants garantissent que l’annotation ajoutée par les collègues de ISWOC pourra être réimportée par la suite dans le corpus SRCMF.
Les publications et communications relèvent principalement du champ de la linguistique descriptive et théorique (présentation problématisée du projet, études sur le corpus) mais aussi de la linguistique computationnelle. Publications et communications sont présentées en E.

Autres types de production :
Voir ci-dessus les développements associés à NotaBene, TIGERSearch et TXM.

Coordination du projet

Sophie Prévost (Organisme de recherche)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Aide de l'ANR 160 000 euros
Début et durée du projet scientifique : - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter