CE28 - Cognition, comportements, langage

Prédire les Usages des LoCuteurs en français Oral : approches quantitative, expérimentale et comparative des alternances syntaxiques – PULCO

PULCO : Prédire les Usages des LoCuteurs en français Oral

Le projet a pour ambition d'expliquer les usages oraux des locuteurs et certains mécanismes de production qui les sous-tendent. Pour cela, nous développerons des modèles prédictifs de certains usages des locuteurs de façon à avoir une image globale des phénomènes et nous recueillerons expérimentalement des productions orales contrôlées pour comprendre comment certains facteurs interviennent et interagissent dans la production de la parole.

Enjeux et objectifs

Un des buts principaux des travaux actuels en syntaxe quantitative et expérimentale est d’identifier les facteurs ayant un pouvoir prédictif sur les choix des locuteurs face à des alternances syntaxiques, c’est-à-dire des cas où le locuteur a le choix entre deux ou plusieurs structures syntaxiques pour exprimer des sens équivalents. En s’appuyant sur le croisement de méthodes quantitatives en corpus (par ex. Bresnan et al 2007) et de méthodes expérimentales (par ex. Bresnan & Ford 2010), l’étude et la modélisation des facteurs prédictifs se sont développées dans un large éventail de langues, pour des phénomènes variés. Depuis une dizaine d’années, le français a à son tour donné lieu à une première modélisation de ces phénomènes, par exemple sur la position de l’adjectif épithète (une agréable soirée / une soirée agréable ; Thuilier et al. 2012), l’ordre des compléments du verbe (donner un verre de lait au chat / donner au chat un verre de lait ; Thuilier 2012) ou l’alternance entre voix active et passive (un enfant a trouvé le chat / le chat a été trouvé par un enfant ; da Cunha & Abeillé 2020). A ce jour néanmoins, les études ont essentiellement porté sur le français écrit, du fait de la disponibilité de ressources importantes et richement annotées. Il est temps d’inclure les données du français oral dans ce champ d’étude : pour la dimension quantitative, c’est désormais envisageable, grâce à la récente mise en ligne du Corpus d’Etude pour le Français Contemporain (CEFC, ANR Orfeo) (Debaisieux & Benzitoun 2020). Sur le plan expérimental, le paradigme du rappel de phrases est un protocole complémentaire à l’étude des usages attestés, en ce qu’il permet d’étudier la production orale dans des conditions contrôlées, comme cela a été fait pour le français par Thuilier et al (2021). Notre projet se propose d’intensifier les recherches en syntaxe quantitative et expérimentale sur l’oral, et d’enrichir ces deux volets en ajoutant une dimension comparative, considérant que l’étude très ciblée des alternances syntaxiques nous renseigne sur le fonctionnement du langage humain quand on compare les variétés d’une même langue (cf. Bresnan & Ford 2010, Szmrecsanyi et al 2017). Notre projet vise à appliquer cette triple approche à l’étude des alternances syntaxiques dans le domaine verbal : l’ordre des compléments du verbe, l’alternance actif/passif, l’alternance anticausative (Paul ferme la porte / la porte se ferme), et les alternances de sous-catégorisation des verbes, comme dans toucher une question / toucher à une question (Huyghe & Corminboeuf 2018).

Le projet repose sur une méthodologie en trois volets : volet quantitatif, volet expérimental et volet comparatif.

Volet quantitatif :
Nous envisageons une approche quantitative supervisée, qui s’appuie sur des données propres, soigneusement documentées et richement annotées, de façon à obtenir des modèles interprétables pour la théorie syntaxique et dont les résultats peuvent être croisés avec des résultats expérimentaux. Sur les 10 millions de mots du CEFC, près de 4 millions correspondent à des transcriptions de l’oral (Debaisieux et Benzitoun 2020). Dans la mesure du possible, l’objectif est de travailler sur des données d’oral non planifié. Les métadonnées du CEFC permettront dans tous les cas de prendre en compte la situation de communication et d’avoir donc une idée du degré de planification des énoncés. Le sous-corpus oral du CEFC présente une taille et des annotations (segmentation en phrases, POS, lemmes, analyses en dépendance) adaptées à notre approche.

Volet expérimental :
Afin d’étudier la production orale des locuteurs de façon contrôlée, nous proposons de travailler à partir du paradigme de rappel de phrases (Potter & Lombardi 1990 ; Lombardi & Potter 1992). Nous établirons un premier protocole expérimental, inspiré de Tanaka et al. (2011) et Thuilier et al. (2021) dans lequel chaque participant est exposé à une liste de stimuli oraux (des phrases) qu’il devra rappeler après une tâche de distraction (calcul mental simple) et grâce à une amorce orale qui lui sera fournie pour chaque phrase à rappeler. L’objectif est de voir s’il y a des déviations par rapport aux phrases stimuli qui pourraient montrer l’effet de certains facteurs sur la structure choisie et donc sur les mécanismes de production en jeu. Nous utiliserons ce protocole en particulier pour tester les effets d’accessibilité en interaction avec la prototypicalité des arguments du verbe.


Volet comparatif :
L’homogénéisation des formats et des annotations dans CEFC nous permettra de proposer une comparaison quantitative des usages entre différentes régions (Paris/CFPP2000, Belgique/Valibel et Suisse/OFROM), là où des études sur une seule variété ont été menées (voir Corminboeuf et al 2020 pour OFROM ; Liang et al 2021 pour CFPP2000). La taille de certains corpus régionaux ou l’absence de certaines variétés nous amèneront par ailleurs à développer une approche expérimentale de la variation régionale. Dans Dagnac & Thuilier (2020), nous avons étudié l’alternance entre OD marqué et OD non marqué (je la connais, à Mélanie / je la connais, Mélanie) en français oral du Sud-Ouest à partir d’un protocole de recueil de jugements d’acceptabilité. Le succès de cette étude montre qu’il est possible d’étudier les variétés régionales et leurs spécificités de façon expérimentale et ouvre la voie au développement d’un protocole de rappel de phrases adapté à l’étude des variétés régionales.

L’exploitation du corpus CEFC permettra de développer des modèles robustes, capables de prédire les choix effectifs des locuteurs à l’oral, et de les confronter dans différentes variétés de français (France, Belgique et Suisse). En complément, nous développeront des protocoles de rappel de phrases orales pour améliorer la compréhension de deux dimensions en jeu à l’oral : 1) l’interface entre syntaxe et prosodie ; 2) l’interface entre syntaxe et sémantique, par l’étude du rôle du verbe, de l’accessibilité de ses arguments et de leur prototypicalité. Enfin, nous appliquerons la méthodologie quantitative et expérimentale dans une perspective de comparaison des variétés de français.

Les résultats seront donc :
- des tables des données relatives à des alternances syntaxiques triées manuellement, richement annotées ;
- des modèles de prédiction relatifs au choix de structures syntaxiques à l'oral ;
- des protocoles de rappel de phrases adaptés à l'étude de la production syntaxique orale, à l'exploration de l'interface syntaxe-prosodie en production, à la comparaison de la syntaxe des variétés de français ;
- les résultats expérimentaux relatifs à ces protocoles.

-

Bîlbîie, Faghiri, Thuilier (Eds) (2021) Syntaxe expérimentale, Langages 223, Armand Colin www.cairn.info/revue-langages-2021-3.htm

Thuilier, Grant, Crabbé, Abeillé, (2021) Word order in French: the role of animacy, Glossa: a journal of general linguistics 6(1) doi.org/10.5334/gjgl.1155

Thuilier, Faghiri (2019) Canonicité des arguments verbaux, caractère animé et ordre linéaire, Journée d’études Les constructions verbales (non) canoniques : de la réalisation argumentale à la structure propositionnelle, Fribourg.

Un des buts des travaux actuels en syntaxe quantitative et expérimentale est d’identifier les facteurs ayant un pouvoir prédictif sur les choix des locuteurs face à des alternances syntaxiques, c’est-à-dire des cas où le locuteur a le choix entre deux structures syntaxiques pour exprimer des sens équivalents. Le français écrit est étudié dans cette perspective depuis une dizaine d’années (par ex. Thuilier et al 2012, da Cunha & Abeillé 2020). Il est temps d’inclure les données du français oral dans ce champ d’étude : pour la dimension quantitative, c’est désormais envisageable, grâce à la très récente mise en ligne du Corpus d’Etude pour le Français Contemporain (CEFC, ANR Orfeo). Sur le plan expérimental, le paradigme du rappel de phrases est un protocole complémentaire de l’étude des usages attestés, en ce qu’il permet d’étudier la production orale dans des conditions contrôlées. Enfin, nous enrichissons ces deux volets en ajoutant une dimension comparative au projet, considérant que l’étude très ciblée des alternances syntaxiques nous renseigne sur le fonctionnement du langage humain quand on compare les langues et les variétés de langue. Notre projet vise à appliquer cette triple approche à l’étude des alternances syntaxiques dans le domaine verbal : ordre des compléments du verbe, alternance actif/passif, et alternances de sous-catégorisation des verbes. L’accent sera mis sur deux dimensions en jeu dans la production orale : 1) l’interface syntaxe/prosodie, en termes de groupements de mots ; 2) l’interface syntaxe /sémantique, par l’étude du rôle du verbe, de l’accessibilité de ses arguments et de leur prototypicalité. Notre projet a donc pour ambition de développer des modèles prédictifs de certains usages syntaxiques des locuteurs à l’oral, en prenant en compte la variation régionale, et de fournir une meilleure compréhension de la syntaxe du français oral dans ses interfaces avec la sémantique et la prosodie, et en s’appuyant sur la comparaison typologique.

Coordination du projet

Juliette THUILIER (Université Toulouse - Jean Jaurès)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

CLLE Université Toulouse - Jean Jaurès

Aide de l'ANR 276 895 euros
Début et durée du projet scientifique : février 2023 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter