Exploration des inégalités de genre sur internet par la sociolinguistique computationnelle – EGICS
Selon un adage popularisé sur le forum 4chan, « il n'y a pas de filles sur internet ». Aussi provocateur qu’il puisse paraitre, cet adage contient un fond de vérité. Loin d'être le « grand égalisateur » espéré au début des années 1990 (Wojahn, 1994), c'est-à-dire un espace où il y aurait moins de sexisme et de racisme que dans le monde « réel », internet reproduit et amplifie les inégalités de genre, si bien que nous vivons aujourd’hui dans un contexte mondial de « ségrégation numérique » (Friesen et al., 2021). Le projet EGICS (Exploration des inégalités de genre sur internet par la sociolinguistique computationnelle) vise à mettre en lumière la façon dont les femmes et les hommes participent aux discussions sur diverses plateformes internet (Reddit, YouTube, médias sociaux, forums en ligne et sections de commentaires des sites médiatiques, etc.). EGICS utilise des méthodes sociolinguistiques computationnelles, qui combinent traitement automatique des langues (TAL) et questions sur la dimension sociale du langage. Puisque le langage est central dans les interactions en ligne, cette approche a le potentiel de nous aider à mieux comprendre les inégalités de genre sur internet. Basé sur de grands jeux de données, EGICS propose de développer une approche fine et nuancée des identités en ligne, qui prend en compte non seulement les identités de genre, mais aussi la manière dont ces identités sont créées par le langage dans divers contextes.
EGICS s'articule autour de trois phases : PARTICIPATION, DÉ-CONSTRUCTION, et ACTION. La phase PARTICIPATION adoptera une approche multifactorielle pour mesurer la participation en ligne d’individus de différentes catégories sociales, explorant la manière dont le genre interagit avec la classe sociale, l'âge, la sexualité et le handicap. L'objectif de la deuxième phase, DÉ-CONSTRUCTION, est d'étudier comment les approches discursives peuvent être utiles pour étudier les inégalités dans la participation en ligne. Elle s'éloigne de l'étude des identités sociales pour s'intéresser aux performances sociolinguistiques : la façon dont les individus utilisent différentes ressources linguistiques pour communiquer des informations sur eux-mêmes dans différents contextes. Des algorithmes de clustering seront utilisés pour grouper les internautes en fonction de leurs choix linguistiques, et les « identités sociolinguistiques » ainsi obtenues seront comparées aux identités sociales de la phase 1 pour voir dans quelle mesure elles s’alignent. Enfin, la phase ACTION étudie la manière dont les identités sociales et sociolinguistiques sont muselées ou au contraire valorisées en ligne, avec des études portant sur les propos misogynes, trans/homophobes et racistes, et, à l’opposé, sur le langage de l’antidiscrimination.
EGICS est un projet ambitieux, car les analyses linguistiques très détaillées qu’il propose sont plus chronophages que celles habituellement réalisées dans le domaine du TAL. Il vise ainsi à fournir une meilleure compréhension de la source des inégalités de genre en ligne, ainsi que des pistes pour les réduire. Innovant et interdisciplinaire, EGICS mêle TAL, sociolinguistique, études de genre et ethnographie numérique, et apportera des contributions scientifiques à tous ces domaines. Un grand soin sera apporté à la création de corpus inclusifs, afin de réduire les disparités dans les jeux de données : en effet, en raison de la manière dont ils sont construits (en s'appuyant sur les interfaces de programmation de sites comme Reddit), les grands corpus d’internet marginalisent souvent encore plus les femmes (D'Ignazio & Klein, 2023). J'émets l'hypothèse que cette nouvelle approche permettra d'obtenir une image beaucoup plus complète de la participation en ligne des individus, et dans un éventail de contextes beaucoup plus large, qu’il n'en existe actuellement.
Coordination du projet
Marie Flesch (Marie Flesch)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
LLF Marie Flesch
Aide de l'ANR 203 883 euros
Début et durée du projet scientifique :
- 24 Mois