Préparation des données pour LexImpact

Ce projet regroupe les scripts permettant de préparer les données des différents projets Leximpact.

Schéma complet de préparation et d’utilisation des données

LexImpact Pipeline

Etapes de préparation de la base de données

Le socle de la simulation budgétaire est l’ERFS-FPR c’est-à-dire la version “fichiers de production et de recherche (FPR)” de l’Enquête revenus fiscaux et sociaux produite par l’INSEE. Ils’agit d’une enquête annuelle sur un échantillon de 50 000 ménages ordinaires résidant en France métropolitaine. Elle recueille les différents types de revenus des ménages ainsi que les caractéristiques sociodémographiques de ceux-ci. Si les informations présentes dans ces données sont très fines, notamment pour les catégories de revenus, ces données ne sont accès que via le Centre d’accès sécurisé au données (CASD) ce qui ne nous permet pas de développer un outil utilisable de manière autonome. De ce fait nous utilisons la version FPR de cette base, qui contient des données moins détaillées mais qui peut être utilisé via notre serveur sécurisé et permet une utilisation de notre simulateur pour les personnes habilitées.

1- Retraitement de l’ERFS-FPR

Fonction build() définie dans openfisca-france-data

Cette étape vise à adapter la base de données brute de l’ERFS-FPR en un format compatible avec le moteur de calcul OpenFisca. Il s’agit notamment de : - Sélectionner les variables nécessaires aux calculs. Ainsi sur les sur les plusieurs centaines de variables présentes dans la base initiale, moins de 50 seront utilisées dans le modèle - Renommer les variables pour qu’elle correspondent aux variables openfisca. - Calculer certaines variables qui ne sont pas dans la base brute mais qui seront en entrée du modèle. Principalement : * Déterminer les foyers fiscaux et les familles au sens des prestations sociales à partir des liens de parenté et des statuts conjugaux des individus dans les ménages * Le statut d’activité principal dans l’année (actif en emploi, chômeur, retraité, étudiant, inactif, etc…) ainsi que les caractéristiques de l’emploi (type d’activité, contrat de travail, quotité travaillée dans l’année, etc.. ) en fonction des variables de l’enquête emploi - Restructurer les données afin d’obtenir une table par entité d’openfisca : individu, famille, foyer fiscal et ménage.

–> A la fin de cette étape on obtient des données au format .h5 directement utilisables avec openfisca. Cependant certaines variables sont trop agrégées pour pouvoir réaliser des simulations satisfaisantes. Dans les étapes suivantes ces données sont donc augmentées d’informations en provenance de bases de données plus précises.

2- Ajout de variables issues de POTE et de l’ERFS

Création de copules de variables de POTE sur le CASD

dossier extractions_base_des_impots de leximpact-prepare-data

Nous utilisons les données exhaustives de déclarations fiscales POTE, accessibles par un accès sécurisé, pour enrichir les informations de revenus de notre base de données. Pour ce faire nous réalisons des copules, ou distributions croisées dans POTE.

Les variables concernées :

  • Les revenus du capital imposables, notamment :
    • Les revenus fonciers
    • Les revenus du capital soumis au prélèvement forfaitaire unique (PFU)
    • Les plus-values soumises au PFU
    • Les rentes viagères à titre onéreux

Pour cette première catégorie de variables la variable primaire est la somme des revenus individuels des membres du foyer fiscal, hors PACS, c’est à dire la somme des salaires, revenus des non salariés, retraites, allocations chômage, pensions alimentaire et d’invalidité. Il s’agit de l’ensemble des informations de revenu que nous avons dans la base ERFS-FPR à l’issue de l’étape précédente

  • Des variables rentrant en compte dans le calcul de l’impôt sur le revenus
    • Les charges déductibles
    • Les réductions d’impôt
    • Les crédits d’impot

Pour cette seconde catégorie la variable primaire est le revenu fiscal de référence divisé par le nombre de part fiscal dans le foyer. Cela pour faire une imputation sur la même dimension que la représentation graphique finale.

Pour chaque variables ci dessus la création du copule se fait en deux temps. D’abord on divise les observations en quantile de la variable primaire. Par quantile de variable primaire on calcule les quantiles de variables cibles. Ainsi pour chaque groupe de variable primaire on obtient la distribution de la variable cible. Cela nous permet d’obtenir une distribution fine de la variable que l’on veut ajouter à notre base de données.

Imputation des variables d’après les copules

méthode build_imputation() de PipelineErfsSurveyScenario

Pour ajouter les variables dont on a fait les copules précédement, on classe la base de données ERFS-FPR d’après la même variable primaire

Imputation de cases spécifiques issues de l’ERFS sur le CASD

fonction add_cases_ir_from_erfs()

3- Vieillissement des données jusqu’à l’année de simulation

4- Recalage des agrégats des dispositifs calculés : impôt sur le revenu, csg sur les salaires et sur les retraites

La dernière étape de la préparation des données est de caler la simulation sur les agrégats. Du fait des limites de nos données nos calculs comportent une marge d’erreur et ne nous retrouvons pas exactement les masses de prélèvements

How to contribute

Please see the contributing page.