DS0806 - Révolution numérique et mutations sociales

Une sociolinguistique de Twitter : liens sociaux et variations linguistiques – SoSweet

Résumé de soumission

Le projet SoSweet étudie la variation synchronique et l'évolution diachronique de la variété de français utilisée sur Twitter.
Le Web s’est immiscé dans la plupart des domaines de notre vie sociale. La langue étant au centre des interactions sociales, il est légitime de se demander comment le Web l’influence. En favorisant des usages linguistiques distincts des formes standard écrites ou orales, l'avènement récent des médias sociaux favorise l'émergence de nouvelles variétés de langues caractérisées par une grande variabilité entre les communautés de locuteurs et un fort taux d'innovation. Une description scientifique de ces variétés doit prendre en compte cette variabilité et expliquer comment les forces sociales et les contraintes techniques en régulent la dynamique. L'objectif principal de SoSweet est donc une meilleure description des liens entre variation linguistique et structure sociale sur Twitter, tant synchroniquement que diachroniquement. A travers le cas spécifique de Twitter, et dans la conscience des biais qu’introduit ce média, nous visons une meilleure compréhension des liens dynamiques entre individus et structure sociale, et variations et changements linguistiques.
Les méthodologies traditionnelles ne sont pas adaptées à ces questions. D’une part, la communication sur Twitter nécessite de redéfinir des notions fondamentales telle la distinction public vs. privé ou la conception de l’interlocuteur. D’autre part, alors que les études sociolinguistiques se basent sur des échantillons limités, notre corpus comptera un demi milliards de tweets, adossés au réseau social des 10 millions d’utilisateurs qui les ont produits et dont les caractéristiques sociodémographiques seront connues pour partie. Cette masse de données rend nécessaire l’utilisation de méthodes computationelles.
SoSweet adoptera une approche fortement interdisciplinaire, à la croisée de la linguistique des médias sociaux, de la sociolinguistique, du traitement automatique de la langue (TAL) et de la science des réseaux.
Les outils de TAL sont conçus pour traiter les formes standard de la langue et leur application aux médias sociaux provoque une chute de performance. Alors que le besoin d’outils adaptés aux média sociaux devient de plus en plus pressant, leur développement nécessite une description des variétés de langue qu’on y observe. Laquelle description nécessite ces outils. Nous aborderons cette circularité par un travail interdisciplinaire alliant description linguistique et TAL. L’apport computationnel du TAL sera complété par celui de la science des réseaux qui permet l’abord des données massives issues de réseaux complexes d’utilisateurs grâce à la théorie mathématique des graphes.
Le programme scientifique de SoSweet est conçu pour promouvoir la collaboration interdisciplinaire. Chacun des workpackages qui le composent (gestion, collecte et prétraitement des données, analyse de la variation et de l'évolution, diffusion) implique les quatre partenaires du projet. Prévu pour une durée de 48 mois, SoSweet réunit quatre groupes reconnus dans leur domaine respectif. L’équipe pilote Icar est spécialisée en linguistique de corpus et dans l’étude des interactions. Son rôle est de mettre en perspective les résultats linguistiques et les liens sociaux extraits du réseau d’utilisateurs de Twitter. Lidilem est un laboratoire reconnu de sociolinguistique qui aura la charge d’adapter le cadre et les méthodes sociolinguistiques au cas particulier de la communication et de la variation sur Twitter. L’équipe ALPAGE est spécialisé en TAL. Ses rôles sont d’enrichir les données brutes concernant les tweets afin de fournir un corpus normalisé et linguistiquement informé, et de réaliser une analyse distributionnelle du corpus destinée à circonscrire des variantes sociolinguistiques. Enfin, Dante, spécialisée dans l’étude des graphes complexes, mènera la tâche cruciale de formaliser, d’analyser et de modéliser le réseau de liens sociaux entre utilisateurs de Twitter

Coordinateur du projet

Interactions, Corpus, Apprentissages, Représentations (Laboratoire public)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Centre INRIA Paris - Rocquencourt
Linguistique et Didactique des Langues Etrangères et Maternelles
Centre de recherche Inria Grenoble Rhône-Alpes - DANTE
Interactions, Corpus, Apprentissages, Représentations

Aide de l'ANR 635 187 euros
Début et durée du projet scientifique : septembre 2015 - 48 Mois

Liens utiles