FRAL - Programme franco-allemand en Sciences humaines et sociales 2014

Le PAssage du LAtin au FRAnçais: constitution et analyse d’un corpus numérique latino-français – PaLaFra

Le passage du latin au français: constitution et analyse d’un corpus numérique latino-français

Un chaînon manquant dans notre connaissance de l’histoire du français : le passage du latin au français (PaLaFra)

Comment reconstituer le passage d’une langue à l’autre au sein d’une évolution linguistique continue et partiellement masquée ?

Bien qu’il n’y ait pas de « trou » chronologique dans le continuum des sources écrites qui nous sont parvenues depuis l’Antiquité, le passage du latin au français reste mal connu. Une première raison à cela tient au fait que les langues changent sans cesse et que diverses variétés linguistiques, dont le choix est conditionné par la situation de communication, la région, l’origine sociale des locuteurs…, cohabitent dans un même espace. Le moment où elles se scindent en deux langues n’est pas facile à déterminer. Par ailleurs, les textes latins ont perpétué pendant des siècles les moules hérités de la culture antique et masqué le divorce grandissant entre latin des lettrés et des illettrés, tandis que le français naissant n’avait pas le prestige nécessaire pour mériter une mise par écrit. Entre la langue savante qu’est le latin et la langue vernaculaire contemporaine des premiers textes français, il y a ainsi un écart linguistique dont les étapes intermédiaires sont mal documentées. Le projet PaLaFra propose de nouvelles ressources et méthodologies permettant de combler cette lacune. Il repose sur deux volets complémentaires : la production d’un corpus textuel inédit et la synergie entre latinistes et spécialistes du français pour son exploitation.

Des analyses linguistiques basées sur un corpus bilingue latin-français et réunies dans un manuel de référence sur l’histoire du français

Le corpus PaLaFra est le fruit de la collaboration entre latinistes (principalement en Allemagne) et historiens du français (principalement en France) et réunit en une seule base des textes latins, provenant des Monumenta Germaniæ Historica, des textes français de la Base de français médiéval et des textes parallèles traduits. Les textes sont sélectionnés, formatés, décrits et organisés de façon à permettre l’étude translinguistique. Des outils et procédures numériques ont été développés pour les enrichir d’informations linguistiques (catégories grammaticales, etc.) et un logiciel spécialisé, la plateforme TXM, permet de les exploiter. Une équipe de 47 chercheurs issus de 11 pays est chargée d’étudier à partir du corpus les changements (morpho)syntaxiques caractérisant le passage du latin tardif au français, en tenant compte des variations sociolinguistiques ou liées aux genres textuels. Cette recherche donnera lieu à un ouvrage de référence, dont chaque chapitre est rédigé en binôme par un latiniste et un spécialiste du français médiéval. L’ouvrage offrira un vaste panorama des différents aspects de la morphosyntaxe et servira de cadre aux futures recherches portant sur le passage du latin tardif au français.

Résultats

Le projet PaLaFra a produit un ensemble de ressources numériques utiles pour la recherche linguistique. Ces ressources sont constituées d’un corpus de textes, mais aussi de lexiques, de listes de catégories grammaticales, etc. Le corpus représente un matériau unique pour l’étude du passage du latin au français, de par son caractère bilingue, sa taille (1 400 000 mots environ), la variété des textes et la richesse de ses annotations linguistiques. Il est accessible au grand public et au monde académique avec les outils de la plateforme TXM sur simple inscription gratuite sur le site de la Base de français médiéval (http://txm.bfm-corpus.org).

Perspectives

De nouvelles pistes de recherche ont été envisagées entre les partenaires, en particulier l’étude des chaînes de référence (mentions successives d’un même référent dans un texte) du latin au français. Les articles définis et indéfinis constituant l’une des innovations majeures des langues romanes, la reconfiguration du paradigme des pronoms/adjectifs latins et les transformations dans la composition des chaînes jouent un rôle central dans la période de transition. Ces phénomènes s’accompagnent d’évolutions syntaxiques et sémantiques qui sont d’une grande importance pour les changements typologiques marquant le passage du latin au français. L’annotation et l’étude des chaînes de référence permettraient ainsi de tirer parti du corpus actuel tout en y intégrant une perspective pragmatico-discursive.

Productions scientifiques et brevets

Le résultat majeur du projet est la mise en chantier d’un ouvrage de synthèse sur les aspects (morpho)syntaxiques de la transition linguistique. Cette publication et le corpus associé ouvrent un nouveau domaine d’investigation et serviront de cadre aux chercheurs et étudiants intéressés par l’histoire du latin, des langues romanes et du français, et plus généralement par le changement et la fragmentation linguistique. Un premier recueil d’études a déjà été publié sous le titre Latin tardif, français ancien : continuités et ruptures (éds A. Carlier & C. Guillot-Barbance, 2018)

Résumé de soumission

Il est bien connu que la grammaire comparée des langues romanes ne permet pas de remonter jusqu’au latin tardif. Il existe ainsi un no man’s land entre la latinité tardive et l’état de langue auquel nous permet d’arriver la méthode de la reconstruction. Comme l’a montré Banniard, ce décalage est conceptuel plutôt que chronologique, parce que latin tardif et langue vernaculaire coexistent dans le même espace communicatif et évoluent d’une situation de continuum langagier – où le dosage des traits conservateurs latins et des traits innovants romans varie selon les registres (par ex. sermo altus, stylus simplex) – vers une situation de discontinuum, au moment où l’ancien français devient identifiable comme système langagier.
Le présent projet entend livrer une contribution à notre compréhension de la filiation entre le latin tardif et l’une des langues romanes, le français, dans cette situation complexe qui évolue d’un diasystème de lingua mixta vers une diglossie. Pour ce faire, il s’appuiera sur une synergie entre la communauté scientifique des latinistes et celle des historiens du français.

Le projet réunit trois partenaires dont le rôle sera le suivant :
(i) L’équipe allemande apportera son expertise sur la latinité tardive ainsi que la méthodologie qu’elle a développée pour reconstruire les changements romans. A partir des Monumenta Germaniae Historica, elle élaborera une base textuelle de latin tardif, qui est numérisée, lemmatisée et annotée morpho-syntaxiquement. Elle compte également enrichir le corpus par des annotations et balisages pragmatico-discursifs.
(ii) L’équipe lyonnaise apportera son expertise solide dans le domaine des corpus numériques pour la période médiévale. Elle enrichira la Base de français médiéval en introduisant notamment la lemmatisation. Elle intégrera aussi la base textuelle du latin tardif et la base textuelle du français médiéval de manière à mettre à la disposition de la communauté scientifique une base bilingue latino-française, qui sera pérenne. De plus, elle compte mettre en place un corpus aligné de traductions du latin tardif vers l’ancien français, qui devrait constituer un outil précieux pour étudier d’une manière précise cette filiation.
(iii) Le partenaire lillois coordonnera l’exploitation de ce corpus bilingue – par un réseau de chercheurs latinistes et historiens de la langue française – en vue de la description et de l’analyse de la filiation entre latin tardif et le très ancien français ainsi que la diffusion des résultats de cette recherche sous forme d’un ouvrage de référence qui pourra servir de cadre pour les recherches futures sur la question. Cette exploitation du corpus bilingue latino-français permettra par ailleurs d’évaluer l’ergonomie de la base latino-française et la pertinence du choix des textes et des annotations et de donner un ‘feed back’ aux équipes de Regensburg et de Lyon dans leurs tâches de développement du corpus.

Céline GUILLOT-BARBANCE (Interactions, corpus, apprentissages, représentations)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

STL Lille Savoirs, Textes, Langage
Institut fuer Romanistik, Uni Regensburg Université de Regensburg, Institut fuer Romanistik
ICAR Lyon Interactions, corpus, apprentissages, représentations

Aide de l'ANR 227 619 euros
Début et durée du projet scientifique : septembre 2014 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.