Flash Info
CE38 - Révolution numérique : rapports au savoir et à la culture

Numérisation du patrimoine linguistique arménien : corpus multivarié arménien et traitement des données – DALiH

Numérisation du patrimoine linguistique arménien : Corpus multivariationnel d’arménien et traitement des données

Le projet Numérisation du patrimoine linguistique arménien (DALiH) : Corpus multivariationnel arménien et traitement des données vise à construire pour la première fois une plate-forme linguistique numérique unifiée en libre accès et open-source pour l'ensemble de la variation de la langue arménienne. Des recherches seront menées dans des perspectives linguistique et du Traitement automatique des langues (TAL) afin de fournir des modèles d'annotation grammaticale complète ainsi que des modèles de reconnaissance automatique de la parole (ASR) pour les variétés arméniennes ciblées. Dans le cadre du projet des recherches linguistiques computationnelles, telles que l'identification de la langue et la possibilité de mesurer la distance entre les variétés, la désambiguïsation lexicale et morphologique, seront menées.

Le projet Numérisation du patrimoine linguistique arménien (DALiH) : Corpus multivariationnel arménien et traitement des données vise à construire pour la première fois une plate-forme linguistique numérique unifiée en libre accès et open-source pour l'ensemble de la variation de la langue arménienne, plus particulièrement des corpus annotés pour 1) l'arménien classique ; 2) l'arménien occidental moderne ; 3) un corpus pilote de l'arménien moyen ; 4) trois corpus pilotes des dialectes, et 5) un corpus mis à jour de l'arménien oriental moderne sur la base de celui existant.<br />Des recherches seront menées dans des perspectives linguistique et du Traitement automatique des langues (TAL) afin de fournir des modèles d'annotation grammaticale complète ainsi que des modèles de reconnaissance automatique de la parole (ASR) pour les variétés arméniennes ciblées. Des ressources multi-approches de deep learning et par des règles-dictionnaires seront conçues afin de traiter les bases de données écrites et orales et de recouper leur valeur pour un élargissement ultérieur du corpus, dans un contexte de variation linguistique multiparamétrique pour une langue sous-dotée.<br />Des recherches linguistiques computationnelles, telles que l'identification de la langue et la possibilité de mesurer la distance entre les variétés, la désambiguïsation lexicale et morphologique, seront menées pour revisiter les problématiques de recherche existantes et en introduire de nouvelles soutenues par les nouvelles données traitées disponibles écrites et orales.

Les méthodologies utilisées pour la gestion des données dans le projet DALiH respectent de près les principes énoncés dans le Règlement général sur la protection des données (RGPD), garantissant que l'utilisation des données, en particulier des données orales (les données écrites étant exclusivement issues de matériaux publiés), soit éthiquement solide et légalement conforme. Notre équipe de recherche s'engage à instaurer la confiance entre les participants et les chercheurs, tout en préservant l'intégrité du processus de recherche. Le projet respecte les règlements du RGPD et de la protection des données, garantissant :
• Le consentement éclairé pour le partage de données orales.
• Les considérations éthiques dans le travail avec les communautés linguistiques déplacées.
• L'encryptage et la pseudonymisation des données sensibles.
Les pratiques de recherche éthiques garantissent une minimisation des biais de l'IA dans le développement des modèles de traitement du langage naturel (TAL).
Bien que la documentation des dialectes cibles soit un objectif clé, les méthodes d'enregistrement des langues déplacées, en particulier celles issues des conflits armés, présentent des défis académiques et humains considérables. En raison des contraintes fréquentes pour mener des travaux de terrain sur place, le projet met l'accent sur la nécessité de méthodes de recherche innovantes hors site. Plusieurs solutions méthodologiques sont proposées :
a. Conception de recherche éthique et sensible : Les considérations éthiques sont cruciales lors de la recherche participative avec les communautés touchées. Cela inclut l'obtention du consentement éclairé, le maintien de la confidentialité et le respect des valeurs et pratiques culturelles.
b. Engagement communautaire : Impliquer activement les membres de la communauté dans le processus de recherche est essentiel pour une documentation efficace. En facilitant des ateliers, des entretiens et des groupes de discussion, le projet vise à créer un environnement inclusif qui valorise les voix de la communauté. Rendre les données documentées des dialectes accessibles favorisera la prise de conscience et valorisera à la fois les dialectes et la communauté.
c. Utilisation des dialectes partagés : Les chercheurs qui partagent des dialectes similaires peuvent améliorer les efforts de documentation grâce à la relation de confiance avec les participants, favorisant ainsi leur confort et encourageant leur engagement actif dans le processus de recherche. Mon expérience en tant que locutrice native du dialecte de Goris a été déterminante dans la collecte de données de Getashen.
d. Collecte de données à distance et crowdsourcing : Les technologies numériques, telles que la vidéoconférence et les sondages en ligne, permettent de se connecter avec les communautés déplacées, y compris les membres de Getashen en Russie. Le crowdsourcing permettra aux locuteurs locaux de documenter leurs langues et leurs pratiques culturelles, favorisant ainsi l'appropriation du processus de préservation.
En intégrant ces solutions, le projet vise à développer un cadre complet et éthiquement solide pour la documentation des langues déplacées, au bénéfice des linguistes, des anthropologues et d'autres spécialistes dans les domaines connexes.

Méthodologies de collecte de données. Les données écrites incluses dans le projet proviennent principalement de sources publiées, par téléchargement, OCR et saisie manuelle en fonction du type, de la qualité et du genre de la source initiale. L'OCR a été appliqué essentiellement aux données en arménien classique et arménien occidental moderne. Dans le cadre du projet, un modèle de langage (LLM) a été entraîné sur la base de Llama-2 en utilisant le corpus Armenian OSCAR (Wikipedia en arménien occidental et oriental), et spécialisé en arménien classique, occidental ou oriental en fonction de la tâche cible. Le LLM a été initialement développé pour la correction post-OCR, afin de nettoyer les résultats produits par l'OCR, mais il peut également servir de base pour diverses tâches standard telles que la reconnaissance d'entités nommées ou la modélisation de sujets.

Les données orales compilées dans le cadre de notre projet sont de genres et registres variés, mais aussi de sensibilité diverse concernant le contenu ainsi que l’histoire personnelle des répondants. Trois types principaux de données orales peuvent être définis dans le projet DALiH : le discours orienté vers une tâche, le discours oral public et le discours oral spontané.

n/a

n/a

Le projet Numérisation du patrimoine linguistique arménien : corpus multivarié arménien et traitement des données (Digitizing Armenian Linguistic Heritage: Armenian Multivariational Corpus and Data Processing (DALiH)) vise à construire pour la première fois une plate-forme linguistique numérique unifiée, ouverte et open-source, pour toutes les variétés de l'arménien. Chaque variété de langue sera représentée par une base de données textuelle exhaustive, accompagnée d'une annotation morphologique complète. Plus particulièrement, DALiH concevra : 1) un corpus de l’arménien classique; 2) un corpus de l’arménien occidental moderne; 3) un corpus pilote de l'arménien moyen 4) trois corpus pilotes de dialectes, et 5) une mise à jour d'corpus annoté de l'arménien oriental moderne. Des méthodes de traitement automatique du langage, avec et sans Deep Learning, seront implémentées afin de traiter les bases de données, de créer des modèles d’annotation grammatical et de reconnaissance automatique de la parole ainsi que d'étudier leur pertinence dans le cas d'une langue peu dotée multivariée.

Coordination du projet

Victoria Khurshudyan (Structure et Dynamique des Langues)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

Russian Academy of Science / Institute for Linguistic Studies
SeDyL Structure et Dynamique des Langues
Russian Academy of Sciences / Vinogradov Institute for Russian Language
ERTIM EQUIPE DE RECHERCHE : TEXTES, INFORMATIQUE, MULTILINGUISME
LIPN Laboratoire d'Informatique de Paris-Nord
American University of Armenia / Digital Library of Armenian Literature

Aide de l'ANR 465 494 euros
Début et durée du projet scientifique : mars 2022 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter