DS0806 -

Des données statistiques massives pour observer une société mobile – Big_Stat

Big_Stat

Des données statistiques massives pour observer une société mobile

Centré sur l’utilisation des données administratives françaises en sciences sociales, le projet comporte trois aspects : recherche, retour vers les producteurs de données, formation des utilisateurs.

Tout d’abord, des recherches sur des sujets importants en sociodémographie, pour lesquels les données administratives viennent compléter les données d’enquête. Trois sujets forment le cœur des projets de recherche. 1) évaluation des doubles comptes dans les enquêtes et le recensement, description de la situation familiale des habitants en tenant compte des personnes recensées ou enquêtées deux fois car elles ont deux logements habituels. 2) formation et rupture des couples par les jeunes adultes. 3) analyse des situations familiales et socioéconomiques des enfants de parents séparés qui partagent leur temps entre les deux domiciles parentaux. <br /> <br />Ensuite, une validation des données, en collaboration avec les producteurs, fondée d’une part sur une comparaison entre sources et une confrontation avec des données d’enquêtes sociologiques (y compris des entretiens qualitatifs) pour analyser les situations concrètes qui se cachent derrière des situations familiales mal recensées ou mal identifiées par la statistique publique et, d’autre part, par un retour aux données initiales en cas de résultat étrange. Ces validations peuvent conduire, comme c’est déjà le cas pour l’Échantillon démographique permanent (EDP) de l’Institut de la statistique et des études économiques (Insee), à des enrichissements ou des corrections des fichiers. <br /> <br />Enfin, un effort de diffusion et de mise à disposition des données administratives qui se traduit par la réalisation d’une liste de diffusion du projet, de sites internet dédiés à chaque source, et d’actions de formation des utilisateurs de ces données.

Sur les trois sujets de recherche, l’idée générale est de confronter les sources et les méthodes pour enrichir la compréhension des phénomènes étudiés. Un ensemble très riche de sources peut être mobilisé : les données sociofiscales et le recensement fournissent des estimations très précises des situations, mais fondées sur des définitions particulières. Par exemple le foyer familial est défini par le foyer fiscal (ou le logement avec la taxe d’habitation). Le recensement s’appuie sur la définition des ménages–logements, au sein desquels une ou deux familles peuvent être repérées. Les notions de couple sont également appréhendées à partir de questions individuelles et, depuis la vague 2018, d’informations sur les relations familiales entre habitants du logement, ainsi que sur un éventuel autre logement habituel de chacun des membres du ménage. La plupart des enquêtes auprès des ménages repèrent également les couples co-résidents ou partiellement co-résidents, tandis que des enquêtes plus spécifiques et des entretiens approfondis permettent d’une part de décrire l’ensemble des situations de couple (résidents ou non), ainsi que les situations de co-résidence sans vie de couple.

Concernant les situations familiales des enfants, les enfants partageant leur temps entre les deux résidences parentales après une rupture du couple sont identifiés dans les données fiscales pour les gardes alternées (partage des parts fiscales), dans le recensement depuis 2018, et dans les enquêtes auprès des ménages depuis 2004 à partir de la question sur la présence d’une autre résidence habituelle. La confrontation avec des enquêtes spécifiques, comme l’enquête Famille et logements de 2011, permet d’identifier les situations de ces enfants ; l’échantillon démographique permanent permet, pour les enfants présents la même année dans les deux logements parentaux, de décrire leur situation familiale à partir de la composition de leurs deux logements, où vivent leurs deux familles.

Le projet a rassemblé dans un premier temps des travaux portant sur l’Échantillon démographique permanent (EDP) de l’Insee, qui regroupe les données du recensement et de l’état civil depuis 1968, et dont l’enrichissement récent aux données sociales et fiscales en fait un fichier de données extrêmement riche, mais dont la documentation complète et la validation gagnent à tirer bénéfice de retours des utilisateurs. L’analyse de l’Échantillon démographique permanent, en collaboration entre l’Insee et l’Ined, a permis de mesurer (pour la première fois depuis l’adoption des enquêtes annuelles de recensement en 2004) la fréquence des doubles comptes au recensement à 2,4%, et de discuter de la précision et de la portée de ce résultat avec les responsables du recensement, notamment en termes d’estimation des situations familiales complexes souvent associées à des doubles comptes (enfants de parents séparés, jeunes adultes plus ou moins partis de chez leurs parents).

De très nombreux projets de recherche ont été lancés : observation des couples de même sexe au recensement et à l’enquête Famille, évolution des situations conjugales et les transitions entre les différents états conjugaux en France entre 2010 et 2015, mobilité résidentielle suivant un divorce ou une rupture de PACS, avec un focus particulier sur les parents et sur le rôle du type de garde des enfants, mesure de la fécondité selon le rang de naissance dans l’EDP et à l’état civil. Ces travaux ont donné lieu à des retours vers l’Insee, producteur de l’EDP. Les travaux de validation des sources se poursuivent.

Le travail est collaboratif, et de nombreux projets de recherche sont inclus dans le programme. Nous avons créé un site web du projet big-stat.site.ined.fr, en français et en anglais, où nous présentons les sources et les moyens d’y accéder, les travaux effectués à partir de ces données ainsi que l’ensemble des projets. Le site présente également un ensemble cohérent d’articles théoriques sur les données administratives et les données massives en sciences humaines et sociales, ainsi que de nombreux exemples de travaux utilisant de telles données, en France et ailleurs. Le lien vers www.data.gouv est complété par des liens vers les principales bases de données dans les domaines connexes à la démographie. De même les principales bases de données contextuelles sont référencées.

Ensuite, nous avons créé un site participatif pour les utilisateurs de l’Échantillon démographique permanent (https://utiledp.site.ined.fr), où ils peuvent consulter la documentation des données (qui n’est pas disponible par ailleurs) et contribuer à son enrichissement en proposant des codes de variables, sur le modèle du site des utilisateurs de la cohorte d’enfants Elfe (https://util-elfe.site.ined.fr). Le site est mis à jour et corrigé en permanence.

Des sites similaires ont été construits pour le recensement, le « tronc commun » des enquêtes de l’Insee auprès des ménages, les données de la Caisse nationale des allocations familiales (Cnaf) qui sont mises à disposition depuis novembre 2018. D’autres sont envisagés pour les enquêtes européennes EU-Silc et le fichier des données fiscales Fidéli.

Nous avons organisé en 2018 une formation aux méthodes d’analyse des données massives et aux routines utilisables en langage R, et participé au financement d’une formation de l’Ined sur les données EU-Silc (statistiques sur les revenus et les conditions de vie). Une école d’été sur l’Échantillon démographique permanent sera organisée à l’été 2020.

Le tout est conforme au plan initial.

Toulemon Laurent. 2017. Undercount of young children and young adults in the new French census, Statistical Journal of the IAOS, Vol 33, p. 311–316. content.iospress.com/articles/statistical-journal-of-the-iaos/sji1054
Ferrari, G., Bonnet,

Les nouveaux comportements conjugaux induisent une augmentation des mobilités individuelles familiales, ce qui rend plus difficile une description simple des situations familiales et résidentielles qui tienne compte de leur complexité. Dans le même temps, les données statistiques massives issues des fichiers administratifs exhaustifs deviennent accessibles en France pour la recherche. Le projet a pour ambition de renouveler la connaissance sur des situations familiales particulières, difficiles à observer, en tirant bénéfice de sources statistiques diverses, incluant des fichiers issus des données administratives massives, mais aussi d’évaluer scientifiquement les forces et les faiblesses des différentes sources démographiques qui ont été récemment mises à disposition de la communauté scientifique, ou le seront prochainement, par l’Institut national de la statistique et des études économiques (Insee).

Les données nécessaires pour les analyses démographiques complexes, comme l’Échantillon démographique permanent qui regroupe des données issues des recensements et de l’État civil, et a été récemment enrichi avec des données sociales et fiscales, sont maintenant disponibles. Ces données n’ont pas encore été beaucoup utilisées pour des études démographiques. Notre ambition est, dans un premier temps, d’évaluer la qualité des fichiers massifs mis à disposition et de les documenter pour les utilisateurs, en collaboration avec les personnes en charge de ces données à l’Insee, à partir d’un diagnostic partagé sur les fichiers. Nos efforts se concentreront d’abord sur les estimations de population au recensement, à partir d’une estimation inédite des doubles comptes et des omissions, ainsi que sur les représentations des structures familiales qui en découlent. Deux situations familiales particulières seront ensuite analysées à partir d’analyses diverses fondées sur des sources très hétérogènes : données administratives, recensement, enquêtes en population générale, entretiens non directifs. Tout d’abord, les relations conjugales des jeunes adultes ne sont pas toujours clairement définies et stabilisées. Les différentes définitions de la vie en couple seront mises en regard des conditions sociales et professionnelles des jeunes adultes. Ensuite, nous examinerons la situation familiale des enfants de parents séparés, particulièrement au risque de doubles comptes dans les enquêtes et le recensement. Les données administratives permettent de décrire la situation familiale des enfants et des jeunes adultes telle qu’elle est déclarée à l’État et d’analyser les conditions de vie en termes économiques, y compris pour les enfants partageant leur temps entre deux logements parentaux.

Le projet se place dans des perspectives nationale et internationale. Des contacts existent déjà avec des institutions étrangères qui utilisent et documentent des données administratives massives. Nous tirerons bénéfice de leur expérience et serons en mesure de disposer de notre propre expertise nationale, fondée sur une collaboration étroite entre nos instituts. En rendant accessibles sur un site Internet les informations sur l’accès et la qualité des données massives, et en proposant des solutions concrètes aux difficultés identifiées, le projet rendra un grand service à la communauté des chercheurs, tout en contribuant à l’amélioration de ces données. La publication d’articles méthodologiques dans des revues internationales de premier rang garantira la diffusion de nos résultats.

Les participants au projet travaillent à l’Institut national d’études démographiques (Ined), à l’Insee et dans les universités de Paris 1 Panthéon Sorbonne, Paris Descartes, Lyon, Nancy et Strasbourg. Le projet permettra de développer et de faciliter l’utilisation par les chercheurs en sciences humaines et sociales des données massives bientôt disponibles.

Coordinateur du projet

Monsieur Laurent Toulemon (Institut National d'Etudes Démographiques)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

INED Institut National d'Etudes Démographiques

Aide de l'ANR 291 584 euros
Début et durée du projet scientifique : février 2017 - 48 Mois

Liens utiles