CE38 - Révolution numérique : rapports au savoir et à la culture

APPRENTISSAGE PROFOND POUR LA MODELISATION PREDICTIVE DE LA JURISPRUDENCE – LAWBOT

LAWBOT

Apprentissage profond pour la modélisation prédictive de la jurisprudence (LAWBOT)

Enjeux et objectifs

La justice prédictive peut être définie comme la détermination au moyen de techniques d’apprentissage automatique «de la probabilité de succès d’une affaire au moyen de l’analyse des décisions antérieures rendues en la même matière» (BUAT-MENARD, 2019) à partir d’un «récit brut» et non de faits déjà qualifiés (MENECEUR et BARBARO, 2019). LAWBOT est un projet interdisciplinaire visant à la modélisation statistique de décisions judiciaires, à partir d'un exposé des faits ayant donné lieu au litige, par apprentissage profond de précédents jurisprudentiels similaires. L’apprentissage des précédents est obtenu par entraînement d’un réseau profond (multi-couches), choisi pour ses performances avérées en traitement automatisé du langage naturel (YOUNGY et al. 2018), sur une tâche de classification qui simule le raisonnement juridique en associant, la description des faits de l’espèce (couche d'entrée), à un résultat judiciaire sur un ensemble de classes de prétention (couche de sortie). <br />Le modèle prédictif se décompose en quatre sous-tâches : a) classification multi-labels des prétentions formulées par chacune des parties, b) classification des décisions par thématique d'éléments factuels conduisant au litige, c) prédiction de la prétention, du résultat et du montant alloué par réseau profond, et d) génération automatique de la motivation juridique associée à la décision sur la prétention. Le corpus de données jurisprudentielles pour l'apprentissage profond est constitué par le flux annuel des décisions judiciaires françaises en matière civile et pénale (environ 3,8 millions de décisions par an) et le stock de décisions de la base JuriCA (décisions des cours d'appel environ 200.000 par an depuis 2009), soit un total de 2 millions de décisions au début du projet, et 18 millions de décisions à la fin du projet.

Le projet LAWBOT s'inscrit dans le cadre de la « Prediction Theory of Law » selon laquelle la science du droit consiste dans l’aptitude à formuler des « prophéties de ce qui sera concrètement décidé par les tribunaux » (HOLMES, 1897). Selon cette hypothèse, le phénomène juridique peut être abordé comme une science empirique basée sur des faits observables et quantifiables, en considérant que le droit est le produit des décisions des juges faisant l’application des normes. Le droit peut alors être exprimé sous la forme d'un modèle statistique prédictif permettant de saisir la régularité causale entre des variables indépendantes - les faits ayant donné lieu au litige soumis à la décision du juge - et une variable dépendante - les effets de droit ordonnés par la décision du juge. Les variables indépendantes et les variables dépendantes peuvent être vectorisées. Les faits exprimés en langage naturel peuvent être représentés sous la forme de vecteurs dans un espace de grande dimension (MIKOLOV, 2013). Les effets de droit de la décision judiciaire peuvent également être représentés par des vecteurs dans un espace de dimension 3 [classe de prétention, polarité et montant de la décision sur la prétention].

LOT 1 :
L1.1. Collecte des données
Les décisions de justice ont été collectées afin d’obtenir un panel de décisions par date et catégorie de contentieux représentatif.
L1.2. Annotations
Nos juristes ont procédé à l’annotation des décisions : grâce à une plateforme d’annotation réalisée par l’équipe CHROME (Université de Nîmes), les juristes peuvent en ligne, surlignés dans les décisions les passages qu’il jugent importants, information qui seront ensuite introduites dans une IA afin d’établir son apprentissage. Nous avons aussi créé, et ceci n’était pas prévu au départ, une plateforme de données qui permet à chaque équipe de requêter la base de décisions annotées (plateforme opérationnelle en juin 2022).
LOT 2 :
L2.1. Extraction des entités nommées
Tâche terminée avec un article publié dans la conférence EGC (revue des nouvelles technologies de l’information), voir Tableau D1 (publication n°2).
Notre algorithme prédit avec un taux de succès de 95% certaines informations primordiales dans une décision de justice.
L2.2. Classes de prétention
Tâche 1 : Réalisation d’un rapport (effectué) qui établit une nouvelle nomenclature des prétentions.
Tâche 2 : Etablir une classification automatique des décisions sur la base de cette nouvelle nomenclature (en cours : article de recherche prévu à cet effet).
L2.3. Résultat binaire sur prétentions :
Construction d’une IA qui permet par similarité de prédire la décision du juge. Il s’agit d’établir par paire de décision, des ressemblances, qui permettraient à une IA de prédire l’issue d’un contentieux (imitation du comportement d’un juge). Un premier article a été présenté en conférence (voir publication n°5 et n°6, tableau D1).
L.2.4. Montant alloué par le juge : Travail en cours.
LOT 3 :
L.3.1 Clustering thématique : Travail en cours. Un premier article a été présenté en conférence (voir publication n°4, tableau D1).
L.3.2 Clustering implicite : Travail qui démarrera fin 2022 (replanifié).
L.3.2 labellisation automatique : Travail qui démarrera fin 2023.
LOT 4 :
L.4.1 Apprentissage séquentiel : Travail en cours. Un premier article a été présenté en conférence (voir publication n°3, tableau D1).
L.4.2 Apprentissage simultané : Travail en cours.
LOT 5 :
L.5 Génération automatique de motifs : Travail qui démarrera en 2023.
LOT 6 :
L.6.1 Evaluation des algorithmes, éthique : Travail en cours. Une conférence sera organisée à la rentrée 2022 à l’Université de Nîmes (avec actes de colloques). Un premier article a été présenté en conférence (voir publication n°1, tableau D1).
L.6.2 Evaluation psychologique : Travail en cours. Mise en place d’un protocole expérimental qui permet d’évaluer le comportement des magistrats face à une affaire dont qui a déjà été jugée par une IA. Quelle attitude des juges ?
L6.3. Productivité des avocats : Travail en cours (replanifié). Rédaction de deux articles scientifiques sur la productivité des avocats : 2 articles à prévoir.

Nos perspectives sont les suivantes.
Nous n’avions pas prévu d’outil de travail collaboratif permettant de partager nos données. Nous avons donc rajouté, dans le LOT n°2, un nouveau LOT 2.5 (voir tableau précédent), qui est la construction d’une plateforme collaborative qui permet à chaque équipe de récolter des données issues des annotations réalisées par les juristes de l’équipe. Cette plateforme a été mise en place sur un serveur sécurisé de l’Université de Nîmes, et elle fera l’objet d’une valorisation scientifique (soumission d’une proposition d’article pour la conférence JURIX 2022).
Plateforme opérationnelle en Juin 2022 (6 mois de travail) : d’où un décalage de 6 mois dans la restitution de certains lots.

1. ECML PKDD 2022 2022.ecmlpkdd.org
Fair and Efficient Alternatives to Shapley-based Attribution Methods, Charles Condevaux, Sébastien Harispe, Stéphane Mussard, European Conference on Machine learning [ECML PKDD] (rang A).

1. EGC 2022 : editions-rnti.fr
NER sur décisions judiciaires françaises: CamemBERT Judiciaire ou méthode ensembliste ? Sid Ali Mahmoudi, Charles Condevaux, Bruno Mathis, Guillaume Zambrano, Stéphane Mussard

2. CAp 2022 à Vannes : caprfiap2022.sciencesconf.org
Tensor Decomposition for Multi-Target Deep-Learning
in the context of Predictive Justice, Alexandre AUDIBERT?, Konstantin USEVICH†,
Massih-Reza AMINI?, and Marianne CLAUSEL

3. CIRCLE 2022
Eya Hammami and Rim Faiz. Text Clustering based on Multi-View Representations, CIRCLE2022 July 4-7, 2022, Samatan, Gers, France[Short paper]

4. CIRCLE 2022
Alexandre Gomes de Lima, Mohand Boughanem, Eduardo Henrique da Silva Aranha, Taoufiq Dkaki and José G Moreno. Exploring SBERT and Mixup Data Augmentation in Rhetorical Role Labeling of Indian Legal Sentences, CIRCLE2022 July 4-7, 2022, Samatan, Gers, France [Short paper]

5. CIRCLE 2022
Nishchal Prasad, Mohand Boughanem and Taoufiq Dkaki. Effect of Hierarchical Domain-specific Language Models and Attention in the classification of decisions for legal cases, CIRCLE2022 July 4-7, 2022, Samatan, Gers, France [Long Paper]

LAWBOT est d’abord, un projet de recherches appliquées en droit, sur l’utilisation de techniques de traitement automatisé du langage naturel. Le projet LAWBOT vise à créer une intelligence jurisprudentielle artificielle capable de prédire le résultat judiciaire pour un cas donné, par imitation des décisions rendues précédemment par les tribunaux sur des cas similaires. LAWBOT est basé sur un réseau de neurones artificiels pour l’apprentissage profond de caractéristiques textuelles prédictives du résultat judiciaire. Le projet met en évidence cinq résultats.
- Premièrement, la mise à disposition de 24.000 décisions annotées par des juristes sur 120 classes de prétention.
- Deuxièmement, la création d’un annotateur automatique qui, à partir des décisions annotées, va générer automatiquement une classification à grande échelle des décisions juridiques rendues publiques au jour le jour.
- Troisièmement, à partir du volume important de décisions classées, prédire la classe de prétention, le résultat et la somme allouée au demandeur à l’aide de modèles d’intelligence artificielle (IA).
- Quatrièmement, générer à partir des modèles d’IA des motifs juridiques, autrement dit, des résumés de décision de justice mettant en évidence le lien entre les faits qui ont conduit au litige et son résultat.
- Cinquièmement, mesurer les impacts éthiques, psychologiques et économiques de l’utilisation d’une IA de justice prédictive.
LAWBOT vise à produire des connaissances fondamentales expérimentales sur la nature même du droit, et son épistémologie. En effet, la formulation de modèles prédictifs est possible, si et seulement si, deux hypothèses fondamentales sur le droit et la jurisprudence sont vérifiées. Première hypothèse, la polysémie du langage ne constitue pas un obstacle insurmontable à la modélisation des décisions juridictionnelles sous une forme quantifiable de données computables. Seconde hypothèse, il existe des corrélations statistiques suffisantes pour formuler une prédiction sur le résultat de la décision à partir de facteurs explicites présents dans le texte, sans avoir besoin de recourir à des variables cachées susceptibles d’induire un aléa judiciaire, telles que des facteurs humains non-quantifiables (personnalité des parties, performances des avocats, préjugés des magistrats). On suppose que les magistrats sont rationnels et cohérents, et tendent à juger de la même manière, les affaires considérées – de leur point de vue – comme étant similaires. A partir de ces deux hypothèses, la quantification de la jurisprudence passée devrait permettre de prévoir la décision d’un juge donné dans une affaire donnée, en se fondant sur l’existence d’un lien de corrélation entre une variable dépendante connue (le résultat judiciaire), et des variables indépendantes inconnues (l’exposé explicite du litige représenté comme combinaison de facteurs quantifiables). Il s’agit d’une démarche expérimentale classique, d’identification d’un lien de corrélation statistique entre un résultat connu et des facteurs variables contrôlés.

Coordinateur du projet

Monsieur Stéphane MUSSARD (Détection, évaluation, gestion des risques chroniques et émergents)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

CHROME Détection, évaluation, gestion des risques chroniques et émergents
LIG Laboratoire d'Informatique de Grenoble
LAMPS LABORATOIRE DE MATHEMATIQUES, PHYSIQUE ET SYSTEMES
IRIT Institut de Recherche en Informatique de Toulouse

Aide de l'ANR 494 999 euros
Début et durée du projet scientifique : décembre 2020 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter