Corpus - Corpus, données et outils de la recherche en sciences humaines et sociales

Outils et Recherches sur le Français Écrit et Oral – ORFEO

Résumé de soumission

Au cours des vingt dernières années, la linguistique de corpus s'est développée grâce à la constitution de corpus dits de référence (The Routledge Handbook of Corpus Linguistics 2010 en relève plus de 126) et a bouleversé le domaine des sciences du langage et du traitement automatique des langues. Ce développement recouvre des enjeux importants. En linguistique théorique, le cadre qui sous-tend les études sur corpus est celui de la grammaire “basée sur l'usage” qui refuse la conception d'une grammaire unique pour une langue pour y substituer celle de “grammaires multiples” rendant compte des usages observés dans des usages écrits et oraux diversifiés en fonction de situations de production. En traitement automatique, la traduction de l'orientation précédente est qu'il n'est pas raisonnable de penser qu'un outil générique transgenre puisse permettre une reconnaissance automatique performante d'usages différents par leurs conditions de production. Les outils de TAL, à l'instar des locuteurs, doivent s'adapter en termes de lexique et de grammaire à la diversité des usages. Dans ce panorama, la France occupe une place particulière. Elle s'est dotée récemment d'une infrastructure numérique, le TGE Adonis dont l'objectif est de mutualiser ressources, standards technologies et préservation des données dans les Sciences Humaines en collaboration avec le réseau des centres de gestion de ressources et de technologies linguistiques CLARIN, mais ne possède aucun corpus de référence aux standard internationaux. Il n'est pas réaliste, pour des raisons politiques et financières, de le construire dans le cadre d'une ANR. Le projet ORFEO propose une solution alternative : la constitution d'un Corpus d'Etude pour le Français Contemporain : CEFC.
Nous proposons donc de :
1. Moissonner les corpus existants en libre accès en accord avec les concepteurs initiaux.
2. Collecter les données pour les genres non représentés afin de rassembler un corpus échantillonné en genres, pour un total de 15 M. de mots (Une tranche d'oral et quatre tranches d'écrit) couvrant l'essentiel des usages de français contemporain oral et écrit : formel/informel, monologue/conversationnel.
3. Constituer une plate–forme d'accès des données et des méta-données rassemblées en accord avec la protection des ayants droits et les conditions juridiques d'exploitation souhaitées par les auteurs.
3. Garantir la conservation pérenne des documents, en déposant les corpus annotés dans des centres de ressources numériques (CNRTL, SLDR, ou le futur Equipex déposé par leurs laboratoires supports en lien avec Paris Ouest et l'université d'Orléans).
4. Annoter automatiquement l'ensemble du corpus en portant une attention particulière à l'adaptation des outils aux différents genres. Les différentes couches d’annotations s’appuieront sur les expériences pilotes des projets ANR Rhapsodie (annotation prosodique et macrosyntaxique) et Annodis (annotation discursive) et sur un processus d’apprentissage actif permettant un passage à l’échelle. L'oral fera l'objet d'une chaîne de traitement original avec prise en compte de la prosodie et schéma d'annotation syntaxique adapté. Les outils de requêtes et d'analyse open source seront mis à disposition sur la plate-forme de façon à permettre aux utilisateurs de développer les analyses de leur choix.
5. Proposer des études pilotes dans des domaines tels les effets de listes, les marqueurs d'attitudes, les faits de clause combining pour lesquels les analyses seront menées selon une approche constructionnelle prenant en compte les propriétés de formes et de signification des unités langagières. Cette démarche permettra aux différents spécialistes de syntaxe, de prosodie, d'analyse de discours, d'analyse de l'interaction et de la coréférence impliqués dans le projet de travailler en collaboration sur les mêmes objets d'étude et de produire les premiers chapitres d'une grammaire des usages du français contemporain.

Coordination du projet

Jeanne-Marie DEBAISIEUX (Langues, Textes, Traitements informatiques, Cognition) – jeanne-marie.debaisieux@univ-paris3.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LORIA Laboratoire Lorrain de Recherche en Informatique et ses Applications
ICAR Interactions, Corpus, Apprentissages, Représentations
CLLE- ERSS COGNITION LANGUES LANGAGE ERGONOMIE Equipe de Recherche en syntaxe et en sémantique
MoDyCo Modèle,s Dynamiques, Corpus
LIF Laboratoire d'Informatique Fondamentale
LATTICE Langues, Textes, Traitements informatiques, Cognition
ATILF Analyse et Traitement Informatique de la Langue Française

Aide de l'ANR 367 432 euros
Début et durée du projet scientifique : janvier 2013 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter