Diversité des Langues Sinitiques et Humanités Numériques – DLS-HN
Le développement des pratiques en humanités numériques (HN) et la disponibilité croissante de corpus ouvrent de nouveaux domaines d’applications et défis pour le traitement automatique des langues (TAL). Le TAL des langues sinitiques ne fait pas exception, tout en présentant certains problèmes spécifiques. Nous proposons un projet qui vise à décrire et relever certains de ces défis en abordant cette question sous l’angle de la variation.
Nous distinguerons trois axes de variations : temporelle (diachronique), géographique (dialectale/diatopique) et grapholinguistique (rapport langue-écriture). Nous souhaitons ainsi questionner les représentations formelles (normalisation et vectorisation des données) et les choix de corpus à la base de tout traitement de langues sinitiques.
Nous étudierons plusieurs situations de variation et différentes applications du TAL aux HN et pour les langues d'héritages.
Notre contribution sera double. Elle portera d’une part sur l’évaluation et la conception des méthodes de TAL sur des données situées à différentes positions le long de ces axes, et d’autre part sur la diffusion de ces méthodes et leur applications. Nous travaillerons à la fois sur des données écrites et orales.
L'axe temporel sera exploré principalement au travers du corpus du Shun-Pao, premier journal quotidien imprimé en sinogramme entre 1872 et 1949. Ce corpus permet d'aborder des questions aussi bien linguistiques qu'historiques, et sera travaillé en collaboration avec les historiens impliqués dans le projet ENP-China.
L'axe géographique sera étudié grâce aux cas du hokkien de Taïwan et du teochew (avec un focus sur la variante parlée en France). Il s'agit là de deux langues de la même famille, relativement proches l'une de l'autre et distantes du mandarin. Elles sont cependant dans des situations sociolinguistiques assez différentes, et elles nous permettront d'explorer les méthodes de transfert en TAL. Cette partie se fera en collaboration avec des collègues taïwanais et Wikimedia France pour faciliter un retour vers les locuteurs.
Coordination du projet
Pierre MAGISTRY (EQUIPE DE RECHERCHE : TEXTES, INFORMATIQUE, MULTILINGUISME)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
ERTIM EQUIPE DE RECHERCHE : TEXTES, INFORMATIQUE, MULTILINGUISME
Graduate Institute of Linguistics, National Taiwan University
Aide de l'ANR 333 633 euros
Début et durée du projet scientifique :
novembre 2023
- 42 Mois