DS08 - Sociétés innovantes, intégrantes et adaptatives

Sur l'estimation des effets de traitement utilisant des données longitudinales – OTELO

OTELO

Estimation d’effets de traitement avec données longitudinales

Enjeux et objectifs

L'évaluation de l’effet des politiques publiques, souvent appelés « effets de traitement », est un objectif majeur en micro-économétrie. Il est cependant difficile à atteindre à cause de l'endogénéité : les bénéficiaires d'une politique publique, par exemple des salariés en emploi aidé, sont souvent différents des non-bénéficiaires. Ainsi une comparaison de ces deux populations ne capture pas seulement l'effet de la politique mais reflète aussi les différences intrinsèques des populations comparées. Une telle comparaison n'est donc pas informative sur l'efficacité des politiques. Les données longitudinales, prises dans une large acception (données de panel ou coupes répétées), sont depuis longtemps considérées comme un moyen de résoudre ce problème. Intuitivement, elles permettent en effet de contrôler l'hétérogénéité inobservée stable dans le temps. Si les données longitudinales occupent une place de choix dans l’évaluation de politiques publiques, elles posent encore des défis méthodologiques. Certaines pratiques d'estimation couramment répandues peuvent conduire à des conclusions erronées, en particulier si les effets de traitement sont hétérogènes. Ce projet de recherche vise à améliorer ces pratiques dans ce cas de figure. Il s'articule autour de deux sous-thèmes liés à la nature des modèles considérés. Le premier correspond aux modèles linéaires, et consiste à étudier des régressions inspirées par la méthode des « différences de différences ». Le second sous-thème concerne les modèles non-linéaires, mobilisés en particulier lorsque la variable dépendante est à variation limitée (e.g., binaire). Il s’agit ici de clarifier les conditions d’identification des paramètres d’intérêt, et de développer des outils pour les estimer au mieux.

Méthodes

Les parties théoriques s'appuient sur la théorie économétrique et statistique, mais aussi parfois d'autres branches des mathématiques comme l'analyse fonctionnelle. Les programmes de calcul des estimateurs ou indicateurs statistiques sont développés sous Stata.

Résultats

Une première version du papier « Two-way fixed effects estimators with heterogeneous treatment effects » est publié sur arXiv :
arxiv.org/abs/1803.08807
Le papier montre que les régressions avec doubles effets fixes utilisées très fréquemment par les économistes n’identifient pas d’effet causal interprétable en présence d’hétérogénéité des effets de traitement, mais des sommes pondérés de différents effets causaux. Nous exhibons les formules des poids correspondants. Nous proposons également des mesures de robustesse de ces régressions, ainsi qu’une autre méthode pour identifier des effets de traitement interprétables. Nous montrons enfin, en reprenant deux articles publiés dans l’American Economic Review, que nos résultats peuvent conduire à modifier les conclusions que l’on pourrait tirer de ces régressions.

Au-delà du papier, nous avons développé, avec Antoine Dib (doctorant à UC Santa Barbara), un package Stata calculant les poids et les mesures de robustesse associées (en ligne sur nos sites web). La méthode alternative que nous proposons est maintenant calculable grâce à un autre package Stata (fuzzydid) que nous avons développé avec Yannick Guyonvarch, doctorant au CREST. Afin de diffuser au maximum cette méthode, ce qui était un des objectifs clés du projet OTELO, nous avons écrit puis publié la documentation du package fuzzydid dans Stata Journal.

Perspectives

Sur les modèles non-linéaires, des résultats théoriques nouveaux ont été établis, en particulier une condition nécessaire à l’existence d’une estimateur racine-n convergent des effets marginaux a été obtenue. Stéphane Bonhomme et Laurent Davezies travaillent actuellement sur le fait que l’estimation de certains paramètres d’intérêt nécessite une régularisation, donc le choix d’un paramètre de lissage. Une heuristique basée sur les données conduit à des résultats très satisfaisants sur données simulées, mais l’obtention de résultats théoriques généraux s’avère difficile. Concernant l’identification des modèles binaires de panel, nous avons exhibé des conditions de moment qui laissent entrevoir la possibilité d’identification de ces modèles en dehors du cas des erreurs logistiques. Nous étudions maintenant plus en détail ces conditions de moment pour comprendre exactement à quelle(s) condition(s) l’identification peut être achevée. Enfin, sur le projet lié à l’identification des effets marginaux moyens dans le modèle binaire, nous avons établi les bornes théoriques sur ces effets, et développé une méthode simple de calcul de ces bornes. Nous avons également développé un estimateur des bornes. Nous étudions maintenant les propriétés théoriques de cet estimateur.

Productions scientifiques et brevets

Le papier « Two-way fixed effects estimators with heterogeneous treatment effects » est en révision à l'American Economic Review.

Résumé de soumission

L'évaluation des effets des politiques publiques, souvent appelés "effets de traitement", est un des objectifs majeurs de la microéconométrie. Cet objectif est cependant difficile à atteindre à cause des problèmes d'endogénéité : les bénéficiaires d'une politique publique, par exemple des salariés en emploi aidé, sont souvent différents des non-bénéficiaires. Ainsi une comparaison de ces deux populations ne capture pas seulement l'effet de la politique mais reflète aussi les différences intrinsèques des populations comparées. Une telle comparaison n'est donc pas informative sur l'efficacité des politiques. Les données longitudinales, prises dans une large acception (données de panel ou coupes répétées), sont depuis longtemps considérées comme un moyen de résoudre ce problème. Intuitivement, elles permettent en effet de contrôler l'hétérogénéité inobservée stable dans le temps.

Si les données longitudinales occupent une place de choix dans l’évaluation de politiques publiques, elles posent encore des défis méthodologiques. Certaines pratiques d'estimation couramment répandues peuvent conduire à des conclusions erronées, en particulier si les effets de traitement sont hétérogènes. Ce projet de recherche vise à améliorer ces pratiques dans ce cas de figure. Il s'articule autour de deux sous-thèmes liés à la nature des modèles considérés.

Le premier correspond aux modèles linéaires. Dans la méthode habituelle des différences-de-différences, certains groupes sont intégralement traités, d'autres intégralement non-traités. Mais les empiristes font très souvent face à des situations moins tranchées. Dans ce cas, nous conjecturons, suite à de Chaisemartin et D'Haultfoeuille (2016), que les estimateurs habituels pourraient être sévèrement biaisés si les effets de traitements sont hétérogènes. Il s'agira d'une part de clarifier les conditions de validité de ces estimateurs habituels, et d'autre part de proposer d'autres méthodes reposant sur des hypothèses moins contraignantes. Nous réévaluerons également l'abondante littérature empirique correspondante à l'aune de ces nouveaux résultats.

Le second sous-thème concerne les modèles non-linéaires, mobilisés en particulier lorsque la variable dépendante est binaire où plus généralement à variation limitée. Dans ces modèles, l'estimation des paramètres "primitifs" et des effets de traitement s'appuie traditionnellement sur des stratégies spécifiques au modèle considéré. Par ailleurs, l'identification ponctuelle des paramètres n'est pas toujours assurée, et l'on doit se contenter de résultats d'identification partielle. Il s'agit là aussi d'apporter de nouvelles contributions méthodologiques. On prolongera tout d'abord l'article de Bonhomme (2012), qui propose une analyse unifiée de ces modèles. Nous porterons une attention particulière à l'estimation des paramètres pertinents pour évaluer les politiques publiques, qui sont souvent plus difficiles à estimer que les paramètres primitifs du modèle. Dans les cas où une identification ponctuelle de ces paramètres est impossible, nous nous concentrerons sur l'estimation des bornes optimales sur ces paramètres, en nous appuyant en particulier sur les outils développés en analyse convexe pour traiter du "problème des moments tronqués".

Les propositions que nous ferons sur ces sujets s'accompagneront de la mise à disposition des programmes Stata, afin de faciliter la diffusion de ces techniques auprès des chercheurs en sciences sociales. Pour assurer le succès de cette diffusion, les programmes devront être à la fois faciles d'utilisation et robustes à une large variété de configuration de données. Ceci implique un travail minutieux et chronophage qui sera réalisé en partie par des assistants de recherche.

Xavier D'HAULTFOEUILLE (CREST UMR9194)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

CNRS CREST UMR9194
CNRS CREST UMR9194

Aide de l'ANR 97 200 euros
Début et durée du projet scientifique : - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.