Mise à jour des paramètres d’OpenFisca avec de l’IA

Résumé du projet

Le projet vise à automatiser la récupération et la mise à jour des paramètres fiscaux utilisés dans OpenFisca, un logiciel de microsimulation. L’objectif principal est de partir d’un identifiant OpenFisca, comme marche_travail.salaire_minimum.smic.smic_b_horaire pour le SMIC horaire, et d’extraire automatiquement les informations pertinentes, notamment :

  • La description du paramètre : Smic brut (horaire)
  • Sa valeur actuelle : 11.65€ au 1er janvier 2024
  • La référence légale correspondante : Décret du 20/12/2023

Ce processus présente plusieurs défis :

  • Gestion des cas où les références légales sont manquantes ou imprécises
  • Mise à jour de l’historique des paramètres
  • Traitement de textes juridiques longs et complexes
  • Nécessité d’un modèle de langue performant en français et particulièrement en vocabulaire juridique
  • Conversion des valeurs textuelles en format numérique

Pour relever ces défis, le projet combine des méthodes déterministes avec l’utilisation de grands modèles de langage (LLM).

L’approche a évolué au fil du temps :

  • Juin 2023 : Premiers essais avec des modèles de langue libres, avec des résultats limités (environ 5% de réussite)
  • Juillet-Août 2023 : Tentatives de fine-tuning et d’utilisation de modèles pour vérifier les valeurs existantes
  • Avril 2024 : Mise en place d’un système de lecture/écriture des paramètres OpenFisca et intégration d’une base de données de textes législatifs
  • Juillet 2024 : Implémentation d’agents de recherche basés sur des LLM avancés (comme GPT-4) pour trouver les références manquantes, avec des résultats prometteurs

Le projet vise à terme à créer un système robuste et efficace pour maintenir à jour les milliers de paramètres fiscaux d’OpenFisca, tout en explorant les possibilités offertes par l’intelligence artificielle dans le domaine juridique et administratif.

Une explication de l’approche retenue est disponible : Utilisation de l’IA pour la mise à jour de paramètres OpenFisca

  • Présentation le 28 novembre 2023, dans le cadre du programme 10% (Etalab), à Guillaume Rozier, conseiller du président de la République sur le numérique et les données publiques.
  • Présentation à la communauté OpenFisca le 25 juin 2024 : Voir le replay en anglais

Ces travaux ont bénéficié d’un accès aux moyens de calcul de l’IDRIS au travers de l’allocation de ressources 2023-AD011014553 attribuée par GENCI.