DS10 - Défi des autres savoirs

Corpus pour une Etude Macro-Syntaxique du Naija (Pidgin du Nigéria) – NaijaSynCor

NaijaSynCor. A corpus-based study of Naija (Common Nigerian Pidgin)

NaijaSynCor propose une étude exhaustive et approfondie de la structure du Naija (Pidgin Commun du Nigeria). Il a été prouvé par Deuber (2005) que cette langue, s’est développée à Lagos comme langue discrète, distincte de l’anglais du Nigéria. Cette étude se propose de déterminer si cela est vrai pour le reste du Nigeria où le Naija est parlé par plus 75 millions de locuteurs. Ce projet étudie les variations diachronique, diatopique, diaphasique, diastratique et de genre.

NaijaSynCor étudie la structure et les fonctions du Naija (Pidgin Commun du Nigerian) au Nigéria aujourd'hui. Il examine les variations diachronique, diatopique, diaphasique, diastratique et de genre.

1. Construire un corpus de référence de 500 000 mots (Corpus de référence Naija, RNC), recueilli en 11 points différents d’enquête dans le pays, avec une sous-section profondément annotée et corrigée manuellement (golden treebank) de 150 000 mots (Treebank prosodique et syntaxique, GTB).<br />2. Comparer le RNC avec le Corpus International de l’anglais (ICE-Nigeria), qualitativement et quantitativement.<br />3. Parvenir à une meilleure compréhension des variations du Naija le long de l’échelle fonctionnel-formel-informel à travers l’étude de son utilisation sur les campus universitaires et dans les médias et plus particulièrement sur la radio (reportages, éditoriaux, informations, etc..).<br />4. comprendre les tendances observées dans la prosodie des nouvelles langues et qui relie la description prosodique du Naija à celle de sa grammaire et de sa Structuration Informationnelle en utilisant les outils du TAL.

Ce projet est une collaboration entre le Llacan et le Modyco, ainsi que deux experts nigérians du Naija (F. Egbokhare & C. Ofulue). Le concept de macrosyntaxe développé par le projet ANR Rhapsodie (Lacheret, Pietrandrea & Tchobanov 2014) s’est avéré particulièrement efficace en ce qui concerne les spécificités des corpus oraux, par exemple les empilages, disfluencies, répétitions, marqueurs discursifs, chevauchements, co-énonciations, faux départs, réparations et troncatures. Cette méthode est inductive, pilotée par les données (les unités pertinentes sont identifiées grâce à l’annotation) et modulaire.
NaijaSynCor est un programme fortement intégré, divisé en 4 modules de travail (WP), fortement interdépendants, partant d’enquêtes de terrain (WP1) pour aboutir à la caractérisation finale du Naija grâce à l’étude du corpus annoté (WP4).
• WP1 produit le RNC (Corpus Naija de Référence). WP1 se déroulera au Nigeria et traitera les données recueillies au cours des enquêtes de terrain. Les fichiers RNC seront téléchargés en continu dans la base de données principale, dirigée par l’équipe de recherche au Llacan à Villejuif où ils seront constamment à la disposition des autres WPs.
• WP2 annote automatiquement le corpus de référence de 500Kw (RNC) pour la syntaxe et la morphologie ; Il convertira 150 sur les 500 Kw du RNC dans un Treebank finement annoté et corrigé manuellement pour la macro - et la microsyntaxe (GTB).
• WP3 effectue une analyse acoustique instrumentale des caractéristiques prosodiques du Naija en relation avec sa Structure Informationnelle.
• WP4 fait la dernière analyse du corpus en termes de relation entre Naija, anglais du Nigeria et langues vernaculaires. C’est une collaboration entre tous les membres du projet. WP4 a pour but (i) d’étudier l’intonosyntaxe du Naija ; (ii) d’établir l’identité du Naija grâce à l’étude statistique de ses variations diachronique, diatopique, diaphasique, diastratique et de genre (Coseriu, 1981).

• WP2 : Un treebank de référence de 150 Kw (golden standard) du Naija (corrigé manuellement) ; un treebank de 400 kw du Naija (annoté automatiquement) ; un manuel d’annotation syntaxique pour le Naija ; un étiqueteur automatique du Naija ; un analyseur de dépendance syntaxique du Naija (MATE entraîné sur le treebank de référence) ; un treebank de 500 kw pour l’anglais du Nigéria (ICE-Nigeria), analysé avec l’analyseur anglais de Stanford).
• WP3 : Un guide d’annotation prosodique du Naija. Un treebank de 150 Kw pour Naija aligné au niveau temporel, muni de tires contenant des informations sur les unités prosodiques de différents niveaux ainsi que leurs contours de hauteur ; la répartition des proéminences et les dysfluences. Une base de données contenant tous les tokens et les mesures de leurs corrélats prosodiques (moyenne de F0, amplitude, vitesse, durée, intensité, etc.), comprenant les deux données continues telles que les contours normalisés et les courbes de vélocité (F0) adaptés aux analyses graphiques et les mesures discrètes permettant les analyses statistiques.
• WP4 : Analyse statistique des métadonnées pour établir des modèles et corrélations (p. ex., le développement du Naija comme L1 et les facteurs qui influent sur la propagation de cette langue) ; analyse statistique de phénomènes de variation structurelle identifiés, afin de déterminer la corrélation entre les variables sociolinguistiques enregistrées dans les métadonnées et ces variations. Analyse multivariée du corpus en termes de morphologie, lexique, syntaxe et prosodie.

Cette approche novatrice de la dynamique du contact et du changement dans les domaines du comportement humain et de la sociologie du langage sera impactera fortement la méthodologie et la technologie de la recherche sur les langues émergentes. Elle est novatrice car, pour la première fois, elle utilisera les nouveaux outils du TAL qui intègrent les informations sur la syntaxe, l’intonation et la structure de sur un vaste corpus annoté profondément pour construire une base de données-étalon de référence. Enfin et surtout, nous espérons qu’elle fournira les données annotées et les outils de TAL nécessaires à la production d’outils de reconnaissance vocale qui peuvent être implémentés dans les smartphones, ouvrant de larges perspectives de développement dans un pays de plus de 160 millions d’habitants, où une grande partie de la population est analphabète, tout en ayant accès aux moyens de communication modernes utilisées par exemple dans les opérations bancaires dématérialisés via les smartphones.

Résultats attendus: Articles de Colloques et de revues ; bases de données et tree-banks Open Source ; aplications Open Source ; une grammaire et un dictionnaire du Naija.

NaijaSynCor entreprend une étude exhaustive et approfondie de la structure du Naija (Nigerian Pidgin) tel qu’il est parlé aujourd’hui au Nigéria. Une étude faite publiée en 2005 par I. Deuber a prouvé que cette langue, telle qu’elle est aujourd’hui parlée par les intellectuels Nigérians, a été est devenue à Lagos une langue autonome, distincte de la variété d’anglais utilisée au Nigéria. Le projet NaijaSynCor se propose de déterminer si cela est vrai pour le reste du Nigeria où le Naija est parlé par plus 75 millions de locuteurs. Grâce à la création d'un corpus finement annoté pour la morphologie, la micro- et la macro-syntaxe, ainsi que l’intonation, le projet documente l'émergence de cette langue comme une langue au niveau national, en contestant les théories existantes du développement des créoles et des langues en contact. Il examine les variations diachroniques, diatopiques, diaphasiques, diastratiques, et fonctionnelles.
Ce projet est le résultat de la collaboration de deux unités de recherche qui ont prouvé leur savoir-faire dans l'annotation de corpus dans des programmes précédents : le Llacan, sur des langues peu décrites (Corpafroas et Cortypo) ; Modyco, sur l'interaction de la prosodie et de la syntaxe en français (ANR Rhapsodie) et le développement de grandes treebanks (ANR Orféo) et de deux éminents experts nigérians sur Naija (F. Egbokhare & C. Ofulue). Le cadre de description macrosyntaxique développé par le projet ANR Rhapsodie (Lacheret, Kahane et coll. 2014) s'est avéré particulièrement efficace en ce qui concerne les spécificités des corpus oraux, par exemple les empilages, répétitions, marqueurs de discours, chevauchements, co-énonciations, disfluences, faux départs, réparations et des troncatures. Cette méthode est inductive, pilotée par les données (les unités pertinentes sont identifiées grâce à l'annotation) et modulaire.
Les outils développés par l'équipe de recherche dans les précédents programmes d'étude du corpus (sont robustes et suffisamment développés pour se concentrer sur le problème linguistique posé par le Naija: dans son expansion géographique et fonctionnelle, le Naija maintient son statut comme langue autonome par rapport à l’anglais du Nigéria, ou subit-il une décréolisation ? Tout en répondant à cette question, le programme de recherche vise à surmonter les deux défis technologiques que sont (i) l’identification automatique des unités illocutoires basée sur les paramètres fournis par les données intonatives (ii) la construction d’un analyseur syntaxique intégrant les données intonatives dans son fonctionnement.
Capitalisant sur ces derniers développements dans le domaine de l'annotation de corpus, cette approche novatrice de la dynamique du contact et du changement dans les domaines du comportement humain et de la sociologie du langage impactera fortement la méthodologie et la technologie de la recherche sur les langues émergentes

Coordination du projet

Bernard CARON (Langage, langues et cultures d'Afrique noire)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LLACAN Langage, langues et cultures d'Afrique noire
Modyco Modèles, Dynamiques, Corpus, UMR7114

Aide de l'ANR 356 642 euros
Début et durée du projet scientifique : janvier 2017 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter