DS0806 - Révolution numérique et mutations sociales

Une sociolinguistique de Twitter : liens sociaux et variations linguistiques – SoSweet

SoSweet - Une sociolinguistique de Twitter : liens sociaux et variations linguistiques

Le projet SoSweet étudie la variation synchronique et l'évolution diachronique de la variété de français utilisée sur Twitter. SoSweet adopte une approche fortement interdisciplinaire, à la croisée de la linguistique des médias sociaux, de la sociolinguistique, du traitement automatique de la langue (TAL) et de la science des réseaux. Il se base sur un corpus de plusieurs centaines millions de tweets, adossé à un réseau social de plusieurs millions d'utilisateurs.

Une meilleure compréhension des liens entre variation linguistique et structure sociale sur Twitter, tant synchroniquement que diachroniquement.

En favorisant des usages linguistiques distincts des formes standard écrites ou orales, l'avènement récent des médias sociaux favorise l'émergence de nouvelles variétés de langues caractérisées par une grande variabilité entre les communautés de locuteurs et un fort taux d'innovation. Une description scientifique de ces variétés doit prendre en compte cette variabilité et expliquer comment les forces sociales et les contraintes techniques en régulent la dynamique. L'objectif principal de SoSweet est donc une meilleure description des liens entre variation linguistique et structure sociale sur Twitter, tant synchroniquement que diachroniquement. A travers le cas spécifique de Twitter, et dans la conscience des biais qu’introduit ce média, nous visons une meilleure compréhension des liens dynamiques entre individus et structure sociale, et variations et changements linguistiques. Etant la quantité de données manipulées et leur nature numérique, les méthodes traditionnelles de la sociolinguistique ne sont pas suffisantes. Pour atteindre notre objectif, nous développons donc des approches interdisciplinaires, computationnelles, et orientées données.

Sociolinguistique, Média sociaux, traitement automatique des langues et science des réseaux

Le parti pris du projet SoSweet est de s'appuyer des données massives. Cela implique de croiser des compétences complémentaires. Du point de vue de la linguistique, nous convoquons la sociolinguistique et la linguistique de corpus. La première nous permet de nous inscrire dans une longue tradition d'étude de la variation, la seconde de mobiliser un savoir faire pour l'analyse de données textuelles. Du point de vue de l'informatique, nous réunissons le traitement automatique des langues qui, de manière complémentaire à la linguistique de corpus, nous permet de traiter les formes langagières fortement bruitées de nos données, et la science des réseaux qui, en complément de la sociolinguistique, nous fournit les outils et concepts pour prendre en compte leur dimension sociale .

Résultats

Tous nos résultats convergent vers la démonstration que nos approches méthodologiques sont pertinentes au regard des objectifs du projet. En étudiant la distribution des parties du discours, nous avons montré que plusieurs genres coexistent sur Twitter et sont adoptés par différentes communautés d'utilisateurs. En parallèle, nous avons montrés que des variables sociolinguistiques du français connues et précédemment étudiées se projetent sur Twitter et corrèlent avec la structure socio-démographique de la population

Perspectives

Les toutes premières données de notre corpus ont été collectées il y a trois ans. Ce recul temporel va nous permettre d'aborder des questions d'ordre diachronique et d'étudier avec finesse la manière dont les innovations linguistiques se diffusent, ou non, au sein d'une population et notamment de comprendre avec des résolutions sociale et temporelle plus précises que ce que permettent les approches traditionnelles les conditions qui gouvernent ces diffusions.
Par ailleurs, au cours des derniers mois, nous avons commencé à employer des méthodes issues de l'apprentissage automatique, tout particulièrement à la croisées des approches distributionnelles et de l'apprentissage profond, pour construire des représentations de données qui rendent saillants les liens entre variation linguistique et structure sociale. Cette direction va très nettement encore monter en puissance pour devenir une caractéristique forte du projet.

Productions scientifiques et brevets

L'ensemble de nos publications sont déposées sur HAL avec mention du projet. Leur liste est consultable a l'adresse sosweet.inria.fr/publications
A ce jour, elles sont au nombre de 18, auxquelles s'ajoutent deux acceptations très récentes d'intervention orale dans des congrès internationaux.

Résumé de soumission

Le projet SoSweet étudie la variation synchronique et l'évolution diachronique de la variété de français utilisée sur Twitter.
Le Web s’est immiscé dans la plupart des domaines de notre vie sociale. La langue étant au centre des interactions sociales, il est légitime de se demander comment le Web l’influence. En favorisant des usages linguistiques distincts des formes standard écrites ou orales, l'avènement récent des médias sociaux favorise l'émergence de nouvelles variétés de langues caractérisées par une grande variabilité entre les communautés de locuteurs et un fort taux d'innovation. Une description scientifique de ces variétés doit prendre en compte cette variabilité et expliquer comment les forces sociales et les contraintes techniques en régulent la dynamique. L'objectif principal de SoSweet est donc une meilleure description des liens entre variation linguistique et structure sociale sur Twitter, tant synchroniquement que diachroniquement. A travers le cas spécifique de Twitter, et dans la conscience des biais qu’introduit ce média, nous visons une meilleure compréhension des liens dynamiques entre individus et structure sociale, et variations et changements linguistiques.
Les méthodologies traditionnelles ne sont pas adaptées à ces questions. D’une part, la communication sur Twitter nécessite de redéfinir des notions fondamentales telle la distinction public vs. privé ou la conception de l’interlocuteur. D’autre part, alors que les études sociolinguistiques se basent sur des échantillons limités, notre corpus comptera un demi milliards de tweets, adossés au réseau social des 10 millions d’utilisateurs qui les ont produits et dont les caractéristiques sociodémographiques seront connues pour partie. Cette masse de données rend nécessaire l’utilisation de méthodes computationelles.
SoSweet adoptera une approche fortement interdisciplinaire, à la croisée de la linguistique des médias sociaux, de la sociolinguistique, du traitement automatique de la langue (TAL) et de la science des réseaux.
Les outils de TAL sont conçus pour traiter les formes standard de la langue et leur application aux médias sociaux provoque une chute de performance. Alors que le besoin d’outils adaptés aux média sociaux devient de plus en plus pressant, leur développement nécessite une description des variétés de langue qu’on y observe. Laquelle description nécessite ces outils. Nous aborderons cette circularité par un travail interdisciplinaire alliant description linguistique et TAL. L’apport computationnel du TAL sera complété par celui de la science des réseaux qui permet l’abord des données massives issues de réseaux complexes d’utilisateurs grâce à la théorie mathématique des graphes.
Le programme scientifique de SoSweet est conçu pour promouvoir la collaboration interdisciplinaire. Chacun des workpackages qui le composent (gestion, collecte et prétraitement des données, analyse de la variation et de l'évolution, diffusion) implique les quatre partenaires du projet. Prévu pour une durée de 48 mois, SoSweet réunit quatre groupes reconnus dans leur domaine respectif. L’équipe pilote Icar est spécialisée en linguistique de corpus et dans l’étude des interactions. Son rôle est de mettre en perspective les résultats linguistiques et les liens sociaux extraits du réseau d’utilisateurs de Twitter. Lidilem est un laboratoire reconnu de sociolinguistique qui aura la charge d’adapter le cadre et les méthodes sociolinguistiques au cas particulier de la communication et de la variation sur Twitter. L’équipe ALPAGE est spécialisé en TAL. Ses rôles sont d’enrichir les données brutes concernant les tweets afin de fournir un corpus normalisé et linguistiquement informé, et de réaliser une analyse distributionnelle du corpus destinée à circonscrire des variantes sociolinguistiques. Enfin, Dante, spécialisée dans l’étude des graphes complexes, mènera la tâche cruciale de formaliser, d’analyser et de modéliser le réseau de liens sociaux entre utilisateurs de Twitter

Jean-Philippe Magué (Interactions, Corpus, Apprentissages, Représentations)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Inria Paris-Rocquencourt Centre INRIA Paris - Rocquencourt
LIDILEM Linguistique et Didactique des Langues Etrangères et Maternelles
Inria - DANTE Centre de recherche Inria Grenoble Rhône-Alpes - DANTE
ICAR - CNRS Interactions, Corpus, Apprentissages, Représentations

Aide de l'ANR 635 187 euros
Début et durée du projet scientifique : septembre 2015 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.