Introduction

Le projet a commencé avec l’objectif de créer une application qui puisse récupérer automatiquement des paramètres fiscaux, en partant de son identifiant OpenFisca, par exemple marche_travail.salaire_minimum.smic.smic_b_horaire pour le montant horaire du SMIC. Cet identifiant permet d’accéder à la fois à sa description (“Smic brut (horaire)”), sa dernière valeur connue (11.65 au 1er janvier 2024) et au texte de loi consolidé en vigueur qui contient la valeur : Décret du 20/12/2023.

Cependant, cela dépend de l’existant. Parfois la référence est manquante ou la description peut explicite, tel que “taux” ou “montant”.

Ce projet a donc également pour objectif de trouver les références quand elles n’existent pas.

Un autre intérêt de l’automatisation est de pouvoir mettre à jour l’historique des paramètres pour combler des manques.

Afin de répondre ces objectifs, nous avons mis en place une combinaison de méthode déterministes et de grands modèles de traitement du langage naturel type ChatGPT, appelés LLM pour Large Langage Model.

Les contraintes relevées : - Les textes de lois peuvent être très long, il faut donc que le modèle de langue accepte des entrées. longues, soit qu’on soit en mesure de localiser par des heuristiques la situation du paramètre fiscal dans le texte. - La loi modificatrice d’un paramètre fiscal, référencée dans OpenFisca, peut modifier plusieurs textes ; il faut donc identifier (automatiquement ou manuellement) le texte précis qui contient la nouvelle valeur ; la concaténation des textes augmentant la longueur du texte à traiter n’est pas une solution satisfaisante. - Le modèle de langue utilisé doit comprendre le français. - Le modèle de langue utilisé doit comprendre le vocabulaire juridique. - Le modèle de langue utilisé doit avoir des conditions de réutilisation adaptées, idéalement être OpenSource. - La valeur retournée est une valeur numérique, il faudrait donc soit que le modèle de langue puisse être contraint à générer des valeurs numériques, soit que la valeur non numériques (par exenple “5000 euros” ou “43,2%”) soit ultérieurement convertie en valeur numérique.

[exclus en première approche] - Il existe des paramètres fiscaux complexes, comme les barêmes d’imposition sur le revenu.