Mise à jour des paramètres d’OpenFisca avec de l’IA
Résumé du projet
Le projet vise à automatiser la récupération et la mise à jour des paramètres fiscaux utilisés dans OpenFisca, un logiciel de microsimulation. L’objectif principal est de partir d’un identifiant OpenFisca, comme marche_travail.salaire_minimum.smic.smic_b_horaire
pour le SMIC horaire, et d’extraire automatiquement les informations pertinentes, notamment :
- La description du paramètre : Smic brut (horaire)
- Sa valeur actuelle : 11.65€ au 1er janvier 2024
- La référence légale correspondante : Décret du 20/12/2023
Ce processus présente plusieurs défis :
- Gestion des cas où les références légales sont manquantes ou imprécises
- Mise à jour de l’historique des paramètres
- Traitement de textes juridiques longs et complexes
- Nécessité d’un modèle de langue performant en français et particulièrement en vocabulaire juridique
- Conversion des valeurs textuelles en format numérique
Pour relever ces défis, le projet combine des méthodes déterministes avec l’utilisation de grands modèles de langage (LLM).
L’approche a évolué au fil du temps :
- Juin 2023 : Premiers essais avec des modèles de langue libres, avec des résultats limités (environ 5% de réussite)
- Juillet-Août 2023 : Tentatives de fine-tuning et d’utilisation de modèles pour vérifier les valeurs existantes
- Avril 2024 : Mise en place d’un système de lecture/écriture des paramètres OpenFisca et intégration d’une base de données de textes législatifs
- Juillet 2024 : Implémentation d’agents de recherche basés sur des LLM avancés (comme GPT-4) pour trouver les références manquantes, avec des résultats prometteurs
Le projet vise à terme à créer un système robuste et efficace pour maintenir à jour les milliers de paramètres fiscaux d’OpenFisca, tout en explorant les possibilités offertes par l’intelligence artificielle dans le domaine juridique et administratif.
Une explication de l’approche retenue est disponible : Utilisation de l’IA pour la mise à jour de paramètres OpenFisca
- Présentation le 28 novembre 2023, dans le cadre du programme 10% (Etalab), à Guillaume Rozier, conseiller du président de la République sur le numérique et les données publiques.
- Présentation à la communauté OpenFisca le 25 juin 2024 : Voir le replay en anglais
Ces travaux ont bénéficié d’un accès aux moyens de calcul de l’IDRIS au travers de l’allocation de ressources 2023-AD011014553 attribuée par GENCI.