Des chercheurs en IA affirment que le modèle de langage GPT-4 d'OpenAI pourrait passer l'examen du barreau
et relance le débat sur le remplacement des avocats et des juges par des systèmes d'IA
Des chercheurs du Chicago Kent College of Law, de la Bucerius Law School de Hambourg et du Stanford Center for Legal Informatics (CodeX) ont testé GPT-3.5 sur des questions de l'examen du barreau américain. Sur la base des résultats obtenus lors du test, ils prévoient que GPT-4, ainsi que des modèles comparables, pourraient être en mesure de réussir l'examen très bientôt. Sans formation spécifique, GPT-3.5 a obtenu un taux de précision global de 50,3 %. Les examinateurs estiment que c'est mieux que ce que beaucoup de diplômés de l'école de droit peuvent atteindre. Et en particulier, GPT a atteint le taux de réussite moyen pour deux sujets : Preuves et Délits.
Aux États-Unis, presque toutes les juridictions exigent un examen de licence professionnelle connu sous le nom de "Bar Exam". En réussissant cet examen, les avocats sont admis au barreau d'un État américain. Dans la plupart des cas, les candidats doivent suivre au moins sept ans d'études postsecondaires, dont trois ans dans une école de droit accréditée. Selon les analystes, la préparation de l'examen prend des semaines, voire des mois, et environ une personne sur cinq échoue au premier essai. Dans le cadre d'une étude, les chercheurs ont examiné comment le modèle GPT-3.5, qui sert de base à ChatGPT, se comporte à l'examen du barreau.
En effet, alors que le monde entier attendait GPT-4, la prochaine version de GPT-3, OpenAI a publié en décembre dernier GPT-3.5 sous la forme d'un nouveau chatbot d'IA, appelé ChatGPT, qui a vu plus d'un million d'utilisateurs moins d'une semaine après son lancement. ChatGPT est une version affinée de GPT-3.5, une mise à jour que la société n'avait pas encore annoncée. Le chatbot a montré ses capacités à générer du texte dans un format de dialogue, ce qui, selon la société, lui permet de répondre à des questions de suivi, d'admettre ses erreurs, de contester des prémisses incorrectes et de rejeter des demandes inappropriées.
Les modèles GPT-3.5 et ChatGPT affichent des performances impressionnantes dans divers scénarios de traitement du langage naturel, dépassant souvent les modèles de langage explicitement formés pour des domaines spécifiques. Les données d'entraînement des modèles GPT ne sont pas complètement connues, mais les modèles ont probablement vu des textes juridiques provenant de sources publiques. Cependant, étant donné la nature complexe du langage juridique et l'aspect généraliste de GPT-3.5, la question de savoir si GPT-3.5 ou des modèles comparables pourraient réussir dans les évaluations de tâches juridiques reste ouverte.
Ainsi, l'équipe a décidé de tester le modèle de langage GPT-3.5 d'OpenAI sur la section à choix multiple de l'examen du barreau, connue sous le nom de Multistate Bar Examination (MBE). Pour ces tests, les chercheurs n'utilisent que des invites de type "zero-shot". Dans la littérature sur l'ingénierie des invites, le terme "zéro-shot" fait souvent référence à un contexte où des données étiquetées zéro sont utilisées pour l'entraînement ou l'inférence de modèles de langage. Dans un sens plus large, "zero-shot" fait référence à "l'apprentissage d'un modèle de langage pour faire quelque chose qu'il n'a pas été explicitement formé à faire".
Le MBE fait partie de l'examen complet, comprend environ 200 questions et est conçu pour tester les connaissances juridiques et la compréhension de la lecture. Selon les chercheurs, les scénarios fictifs exigent une maîtrise sémantique et syntaxique de la langue anglaise supérieure à la moyenne. Le graphique et le tableau ci-dessus montrent clairement que GPT ne réussit pas encore l'examen général à choix multiple. Selon les chercheurs, GPT-3.5 a été capable de donner des réponses correctes aux questions avec une variété d'invites, mais la plus réussie était une invite qui demandait au modèle de classer les trois meilleures réponses.
GPT dépasse largement le "taux de chance de base" de 25 %. De plus, GPT a atteint le taux de réussite moyen pour au moins deux catégories, Preuves et Délits. En moyenne, toutes catégories confondues, GPT a un taux de réussite inférieur d'environ 17 % à celui des candidats humains. Dans le cas de la preuve, des délits civils et de la procédure civile, cet écart est négligeable ou à un chiffre. Cependant, les chercheurs affirment que, pour les autres catégories de droit constitutionnel, de biens immobiliers, de contrats et de droit pénal, l'écart est beaucoup plus important, allant jusqu'à 36 % dans le cas du droit pénal.
Pour le test, l'équipe a utilisé le matériel de préparation de la National Conference of Bar Examiners (NCBE), l'organisation qui crée la majeure partie des examens du barreau. Sur le graphique ci-dessus, la zone bleue indique la moyenne des étudiants du NCBE, et la zone rouge indique le meilleur choix généré par GPT. Comme vous pouvez le voir, pour les preuves (Evidence) en particulier, la machine est prête à battre l'homme. Les auteurs, qui sont des experts en droit, se sont dits extrêmement surpris par les résultats. Ils s'attendent à ce que GPT-4 soit capable de réussir le MBE lorsque le nouveau modèle sera publié par OpenAI.
Les auteurs de l'étude affirment que GPT-3.5 dépasse largement les performances attendues : « malgré les milliers d'heures passées sur des tâches connexes au cours des deux dernières décennies entre les auteurs, nous ne nous attendions pas à ce que GPT-3.5 fasse preuve d'une telle compétence face à des invites de type "zero-shot" avec un effort minimal de modélisation et d'optimisation ». Selon les chercheurs, l'histoire du développement de grands modèles de langage (Large Language Models - LLM) suggère fortement que de tels modèles pourraient bientôt réussir toutes les catégories de la partie MBE de l'examen du barreau.
Sur la base de preuves anecdotiques liées à GPT-4 et à la famille de modèles Bloom de la société LAION, les chercheurs pensent que cela pourrait se produire dans les 18 prochains mois. « Bien que notre capacité à interpréter comment ou pourquoi GPT-3.5 choisit entre les réponses candidates soit limitée par la compréhension des LLM et la nature propriétaire de GPT, l'historique des problèmes similaires suggère fortement qu'un LLM pourrait bientôt passer la barre. Il est tout à fait possible que cela se produise dans les 0 à 18 prochains mois », ont écrit les chercheurs dans le rapport de l'étude.
Leur étude relance le débat sur le remplacement des avocats humains par des systèmes d'IA. La Chine s'emploie depuis plusieurs années à mettre en place un système de « tribunaux intelligents » en intégrant l'IA dans son système judiciaire. Le nouveau système exige que les juges consultent l'IA sur chaque cas, et s'ils rejettent une recommandation de l'IA, ils doivent fournir une explication écrite. Un étude publiée en juillet 2022 indique qu'en remplaçant les avocats humains par l'IA, le système judiciaire chinois a économisé 45 milliards de dollars en frais entre 2019 et 2021, soit la moitié du total des honoraires des avocats en Chine en 2021.
Face à cela, Zhang Linghan, professeur de droit chinois, met en garde : « nous devons être attentifs à l'érosion du pouvoir judiciaire par les entreprises technologiques. Cela pourrait améliorer l'efficacité et l'équité dans une certaine mesure, mais les humains perdront progressivement leur libre arbitre avec une dépendance croissante à la technologie ». Dans certains pays, y compris en France, des cabinets d'avocats font appel à des entreprises qui vantent des technologies juridiques capables d'analyser des millions de décisions de justice à la seconde, ce qui permet par exemple d'évaluer la probabilité de succès d'une action contentieuse.
Certaines des entreprises technologiques qui proposent ces systèmes construisent également des modèles de comportement des juges sur certaines questions ou face à différents arguments juridiques. Avec de telles informations, les cabinets d'avocats peuvent optimiser leurs stratégies devant les tribunaux. Cependant, en juin 2019, la France a décidé de bannir les IA de prédiction des comportements des juges. Selon certains experts, les technologies de justice prédictive représentent une menace pour la société. Ils mettent en avant les biais que peuvent comporter ces systèmes d'IA, notamment sur le plan racial, sexuel et social.
Sources : Des chercheurs du Chicago Kent College of Law, de la Bucerius Law School Hamburg et du Stanford Center for Legal Informatics (CodeX), Rapport de l'étude (PDF), Données complémentaires à l'étude
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des résultats obtenus par GPT-3.5 à l'examen du barreau ?
Pensez-vous également que GPT-4 pourrait bientôt réussir l'examen du barreau ? Pourquoi ?
Quels impacts ces modèles de langage pourraient-ils avoir sur le système judiciaire ?
À votre avis, les systèmes d'IA pourraient-ils remplacer les avocats et les juges dans les tribunaux ?
Voir aussi
En remplaçant les avocats humains par l'IA, le système judiciaire chinois aurait économisé 45 Mds $ en frais entre 2019 et 2021, soit la moitié du total des honoraires des avocats en Chine en 2021
La France bannit les IA de prédiction des comportements des juges, les technologies de justice prédictive sont-elles une menace pour la société ?
Une intelligence artificielle peut-elle être un juge équitable dans un tribunal ? L'Estonie pense que oui
Intelligence artificielle : vingt avocats expérimentés se font battre par un algorithme lors d'un test de détection de problèmes juridiques
Partager