FRAL - Programme franco-allemand en Sciences humaines et sociales

Phonétique et morphologie interlinguistiques utilisant un corpus de référence multilingue aligné temporellement et construit à partir de documentations de 50 langues: Big data sur de petites langues – DoReCo

n/a

n/a

n/a

n/a

Résumé de soumission

Le débit de parole et les pauses nous fournissent une fenêtre sur les bases cognitives-neuronales et physiologiques-articulatoires du système de production du langage humain, mais les variations interlinguistiques dans ce domaine restent sous-étudiées. Ce projet comble cette lacune par des études comparatives en parole spontanée dans un échantillon diversifié de 50 langues. Pour ce faire, nous créons un corpus de référence multilingue de données de documentation (DoReCo) constitué d'annotations et d'enregistrements audio associés qui sont archivés dans des dépôts tels que The Language Archive (TLA), notamment la collection DOBES. DoReCo sera construit à partir de données déjà transcrites, traduites dans une langue majeure et alignées avec les fichiers audio au niveau des unités de discours. Dans le projet actuel, ces données seront réalignées au niveau du phonème. Nous avons identifié au moins 50 langues, à partir desquelles des corpus d'au moins 10 000 mots peuvent être inclus dans DoReCo, et un sous-ensemble d'au moins 30 d'entre eux, qui sont déjà annotés pour le découpage en morphèmes et les glauses. Dans DoReCo, les sous-parties et annotations sont traitées comme des publications citables, munies d'un identifiant permanent et associées à une licence CC BY 4.0. DoReCo aura un effet durable au-delà des objectifs de recherche spécifiques du projet DoReCo, comme plateforme permettant d'accéder facilement à plus d'un million de mots de données de corpus annotés provenant de plus de 50 langues pour la recherche interlinguistique sur la langue parlée. Cela représente une contribution durable sans précédent à l’étude de la diversité linguistique mondiale et le patrimoine culturel. Les deux objectifs de recherche de DoReCo traitent de l'universalité des contraintes sur le langage humain découlant des propriétés articulatoires et cognitives à l'échelle de l'espèce. Premièrement, nous étudions les modèles d'allongement phonétique dans le but d'établir des modèles universels vs. specifiques quant aux degré auquel différents types de segments phonologiques subissent une variation de durée (par ex. voyelles vs. consonnes) - reflétant des contraintes articulatoires et perceptives - et (ii) allongement final des mots comme indicateur de limites prosodiques majeures et mineures - reflétant les contraintes cognitives pour la planification et signalant potentiellement des unités de discours. Deuxièmement, nous étudions les modèles universels vs. spécifiques au langage dans la distribution temporelle des morphèmes concernant (i) le débit d'information en termes de morphèmes par seconde et (ii) le nombre de morphèmes dans les unités inter-pausales, les deux reflétant des contraintes cognitives. Le projet sera mené par une équipe interdisciplinaire réunissant des experts en documentation des langues, phonétique, typologie et linguistique quantitative, avec un fort soutien institutionnel de deux centres de recherche de premier plan en Allemagne et en France.

Coordination du projet

François Pellegrino (Dynamique du Langage)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

ZAS Leibniz-Center General Linguistics
DDL Dynamique du Langage

Aide de l'ANR 262 959 euros
Début et durée du projet scientifique : février 2019 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter