Partage et réutilisation des données en SHS – PaRéDo SHS
Partage et réutilisation des données en SHS
Pour l'ouverture des données de la recherche en SHS, comment arbitrer, en contexte, entre la diversité des pratiques, méthodes et rapports à une multiplicité de matériaux sources, la prescription de bonnes pratiques et de standards, des impératifs techniques et des orientations politiques ?
Les données des SHS en pratique
Afin de répondre à cette question, il est nécessaire de mener à bien une recherche interdisciplinaire sur tout le cycle des pratiques de production, de mobilisation et de circulation des matériaux de la recherche dans les SHS, et de lier celles-ci à la gouvernance des infrastructures afin de comprendre comment ces pratiques tout à la fois gouvernent et sont gouvernées par les infrastructures. Au sein d’OpenEdition Lab et en partenariat avec le Centre Internet et Société, le projet PaRéDo SHS s’intéresse en profondeur aux politiques, aux dispositifs et aux pratiques de partage et de réutilisation des données en SHS à l’échelle de l’infrastructure numérique mutualisée COMMONS grâce à : (WP1) une analyse massive d’un large corpus de documents de politique relatives aux données ouvertes, de recherche sur les données en SHS et de spécifications techniques et normatives, (WP2) un pan de recherche sur la recherche sous la forme d’une ethnographie des pratiques de données des usagers de COMMONS, ainsi que (WP3) des réflexions et recommandations sur les formes de gouvernance nécessaires pour préserver la diversité épistémique des SHS et ainsi favoriser l’ouverture, le partage et la réutilisation des données.
Dans le cadre conceptuel d’une écologie de la gouvernance des infrastructures (Mounier et Dumas Primbault, 2023a) et dans la continuité de l’observatoire des usages du projet COMMONS (OE Lab) ainsi que de l’analyse des voies d’impact économique et sociétal de la science ouverte du projet PathOS (CIS), ce projet de “recherche sur la recherche” se devra d’être fortement marqué par l’interdisciplinarité. Il sera nécessaire de tisser ensemble une variété de points de vue théoriques dans un chassé-croisé méthodologique :
● les science and technology studies (STS) permettront de comprendre les infrastructures de données ouvertes comme des dispositifs socio-techniques qui prennent place dans un écosystème plus large ;
● les sciences de l’information et de la communication (SIC) mettront en lumière comment, au contact de ces infrastructures, les usagers déploient des pratiques d’appropriation, contournement, détournement
afin de satisfaire leurs besoins d’accès, de partage et de réutilisation de données ;
● la science des données permettra d’exploiter les traces laissées par les pratiques, grâce à des outils permettant d’identifier des régimes d’engagement entre données et entre plateformes.
Ce chassé-croisé interdisciplinaire permettra d’articuler sur plusieurs échelles d’analyse :
● une approche qualitative basée sur des méthodes d’enquête issus de l’ethnographie (entretiens, questionnaires, observations, groupes de discussion) ainsi que de la sémiotique (étude des interfaces, des classifications, des outils de recherche et hiérarchisation du contenu) ;
● avec une approche quantitative qui mobilisera de la fouille de texte sur un corpus massif ainsi que des méthodes de machine learning sur les traces d’usages (logs serveurs, données Matomo, web crawling) afin d’identifier des motifs récurrents susceptibles d’indiquer des typologies d’usages et d’usagers.
De nombreuses études des pratiques liées aux données autant que nombre de critiques émises directement par la communauté académique montrent que l’un des verrous les plus importants au partage et à la réutilisation des données de la recherche en sciences humaines et sociales est de nature épistémologique : les principes, les politiques, les outils et, partant, le cadre de spécification, de circulation et de valorisation des données de la recherche en SHS sont susceptibles de ne pas respecter la diversité des cultures épistémiques de ces disciplines – entre autres, la diversité des matériaux, les dynamiques sociales de leur circulation, les méthodologies constructivistes qui façonnent le rapport des communautés à leurs matériaux, ainsi que l’importance de “faire” son terrain, ses archives ou d’entretenir un certain rapport à ses enquêtés.
Les infrastructures de données ouvertes sont le nexus où s’articulent des politiques publiques, des organismes publics d’ampleur nationale et internationale, des acteurs privés, des dispositifs socio-techniques, mais aussi les pratiques matérielles d’une variété d’usagers et les données elles-mêmes. Elles sont donc un lieu de tensions productives où se joue la rencontre entre un principe d’ouverture, un besoin de standardisation – permettant le stockage, la documentation, la circulation et l’interopérabilité de données de plus en plus massives – et la nécessité d’équiper au plus juste les pratiques des SHS dans leur singularité – en France en particulier, du fait de constructions institutionnelles et infrastructurelles, et par contraste avec les STEM et leurs données – ainsi que de préserver la diversité épistémique au sein même des SHS. Afin de garantir une certaine forme d’autonomie académique (notamment au niveau des pratiques de recherche) tout en préconisant de bonnes pratiques de données ouvertes (notamment par des normes et standards), la question opérationnelle qui se pose est celle d’une gouvernance épistémique des données : comment arbitrer, en contexte, entre la diversité des pratiques, méthodes et rapports à une multiplicité de matériaux sources, la prescription de bonnes pratiques et de standards, des impératifs techniques et des orientations politiques ?
Afin de répondre à cette question, il est nécessaire de mener à bien une recherche interdisciplinaire sur tout le cycle des pratiques de production, de mobilisation et de circulation des matériaux de la recherche dans les SHS, et de lier celles-ci à la gouvernance des infrastructures afin de comprendre comment ces pratiques tout à la fois gouvernent et sont gouvernées par les infrastructures. Au sein d’OpenEdition Lab et en partenariat avec le Centre Internet et Société, le projet PaRéDo SHS s’intéresse en profondeur aux politiques, aux dispositifs et aux pratiques de partage et de réutilisation des données en SHS à l’échelle de l’infrastructure numérique mutualisée COMMONS grâce à : (WP1) une analyse massive d’un large corpus de documents de politique relatives aux données ouvertes, de recherche sur les données en SHS et de spécifications techniques et normatives, (WP2) un pan de recherche sur la recherche sous la forme d’une ethnographie des pratiques de données des usagers de COMMONS, ainsi que (WP3) des réflexions et recommandations sur les formes de gouvernance nécessaires pour préserver la diversité épistémique des SHS et ainsi favoriser l’ouverture, le partage et la réutilisation des données.
Coordination du projet
Simon Dumas-Primbault (OpenEdition)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
CIS Centre Internet et Société
OE OpenEdition
Aide de l'ANR 268 200 euros
Début et durée du projet scientifique :
août 2024
- 36 Mois