FRAL - Programme franco-allemand en Sciences humaines et sociales 2015

Segmentation de corpus oraux – SegCor

Résumé de soumission

Bien qu’une grande variété de systèmes de segmentation aient été élaborés et discutés depuis le début de la recherche sur la parole-en-interaction, tous les problèmes n’ont pas été résolus. Il manque encore un système opérationnel et utilisable, basé sur une analyse approfondie de la construction de l’interaction qui permette d’exploiter les corpus d’interaction existants. Pour cette raison notre projet a pour but de développer une méthode de segmentation, utilisable pour l ‘analyse de la parole-en-interaction sur différents niveaux et pour différentes communautés de chercheurs. Il se base sur de vastes collections d’enregistrements audio et vidéo de différents types d’interaction en Français et en Allemand (les banques de données CLAPI, ESLO et FOLK) ainsi que sur les différentes approches de segmentation décrites en analyse conversationnelle, linguistique interactionnelle, pragmatique et linguistique de corpus. Le projet est la première approche de la segmentation qui part d’une base empirique suffisamment large et diversifiée et qui, en même temps, prend en compte la dimension cross-linguistique. Les résultats du projet permettront non seulement une meilleure utilisation des trois banques de données, mais aussi une élaboration de bonnes pratiques pour corpus oraux dans un sens plus large. Les résultats contribuent à l’analyse des structures de la parole-en-interaction, à l’enseignement, à l’analyse contrastive allemand-français et au développement des technologies linguistiques pour des données d’interaction.
Le projet s’appuie sur deux méthodologies différentes : 1) une approche qualitative et multidimensionnelle qui prend en compte différents indices, problèmes et critères de segmentation qui seront testés et approuvés afin d’établir des guidelines de segmentation et 2) une approche quantitative et unidimensionnelle, basée sur certains critères, où des frontières possibles seront identifiées automatiquement et classées par des annotateurs en fonction de leur pertinence pour la segmentation. Les deux approches utilisent un corpus pilote de 10 extraits pour chaque langue de 10 minutes chacun qui est représentatif pour la diversité des types de situations des trois banques de données. Dans une seconde phase, le corpus sera étendu à cinq heures et prendra en compte les résultats de la phase initiale.
Dès le début, les aspects contrastifs seront pris en compte.

Véronique Traverso (ENS de Lyon - laboratoire ICAR)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

ENS Lyon, ICAR ENS de Lyon - laboratoire ICAR
Institut für Deutsche Sprache, Mannheim Institut für Deutsche Sprache, Mannheim
Université d'Orléans-CNRS, LLL Université d'Orléans-CNRS, Laboratoire Ligérien de Linguistique

Aide de l'ANR 246 329 euros
Début et durée du projet scientifique : décembre 2015 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.