Village de la Justice www.village-justice.com

Les enjeux juridiques du Prompt engineering pour les IA génératives (GPT). Par Patrick Nguetchouessi, Juriste.
Parution : vendredi 24 mars 2023
Adresse de l'article original :
https://www.village-justice.com/articles/les-enjeux-juridiques-prompt-engineering-pour-les-large-language-models-instar,45638.html
Reproduction interdite sans autorisation de l'auteur.

Le prompt engineering pour une intelligence artificielle générative (LLM) fait référence à la pratique consistant à formuler des instructions ou des suggestions claires et précises pour guider le fonctionnement de l’IA et obtenir des résultats pertinents et cohérents. Le prompt engineering pour les LLM peut être utilisé pour améliorer la qualité et la précision des résultats en évitant les ambiguïtés, les incohérences et les biais indésirables. Cette pratique devenue aujourd’hui un véritable métier ne manquera pas de soulever des enjeux juridiques considérables dans le champ de l’AI Act.

Les IA dites génératives modélisent l’intelligence humaine comme un phénomène, on retrouve ainsi des IA génératives dans le domaine du langage parlé [1] et dans le langage écrit (LLM). Ce qui fascine aujourd’hui les utilisateurs d’IA comme Chat GPT c’est la capacité du modèle à formaliser et construire un raisonnement à partir d’une question. Il est ainsi capable de reproduire le comportement de l’humain dans ses activités de raisonnement.

En tant que modèle de langue de grande taille (LLM, Large Language Model), Chat GPT est un modèle de traitement de langage naturel qui utilise un grand nombre de données textuelles pour apprendre à prédire les mots et les phrases suivants dans un texte donné. Ce modèle est un outil génératif de complétion de texte, c’est-à-dire qu’en voyant une succession de mots, il va essayer de prédire des mots qui pourraient suivre, listant les mots les plus probables, puis en choisissant.

Les économistes caractérisent les grandes phases technologiques par l’émergence de technologies à usage général, ou GPT (general purpose technologies). Une GPT présente trois propriétés : elle est utilisée dans de nombreuses activités humaines ; ses performances augmentent avec son usage ; elle facilite la construction ou le développement d’autres innovations. L’IA couplée ou non aux robots vérifie ces trois conditions. Des usages sont déjà à l’œuvre ou programmés sur le court terme. Plus l’IA est utilisée, plus elle génère de données utiles qui nourrissent les processus d’apprentissage. Ce schéma de fonctionnement est celui retenu par la start-up OpenAI propriétaire du modèle ChatGPT. L’IA est déjà mobilisée par les entreprises, les auteurs et les scientifiques, y compris des chercheurs.

Cette mobilisation à l’heure actuelle est effectuée au moyen de requêtes dont les caractéristiques, le sens, le contenu, la portée, la longueur ainsi que plusieurs autres paramètres possibles influencent le résultat qui sera donné par le modèle. Ces requêtes sont appelées « prompt » dans le jargon des développeurs et contributeurs de la plateforme discord d’OpenAI. Ces prompt sont l’origine même du texte qui est obtenu grâce à l’utilisation de l’IA. « En effet, l’agent conversationnel formule un résultat, selon une présentation "humanisée", en donnant une unique réponse à une requête qui pourrait appeler des centaines ou des milliers, voire des millions de réponses alternatives puisées dans la base de données attachée à cette IA. À l’inverse, le moteur de recherche opte pour une présentation "mécanique" ».

Les performances et la popularité de ce modèle sont telles qu’on assiste à l’émergence d’une nouvelle profession : le prompt engineering. Cela s’explique par la nécessité d’obtenir le meilleur résultat possible car « il faut une certaine compétence pour interagir avec ces modèles, en les sollicitant avec des requêtes (prompt en anglais) pertinentes ».

Comme l’indique Sam Altman, CEO d’OpenAI dans un tweet, « écrire une excellente requête pour un persona de chatbot est une compétence de haut niveau et un exemple précoce de programmation en langage naturel ».

L’AI act et le prompt engineering.

Datant du 21 avril 2021, la proposition de règlement du parlement européen et du conseil établissant des règles harmonisées concernant l’intelligence artificielle (législation sur l’intelligence artificielle) établit des règles harmonisées pour le développement, la mise sur le marché et l’utilisation de systèmes d’IA dans l’Union suivant une approche proportionnée fondée sur le risque. Cette réglementation a vocation à être complété par une proposition de directive sur la responsabilité civile extra-contractuelle en matière d’intelligence artificielle qui a été publiée par la Commission européenne le 28 septembre 2022.

Ce paquet législatif consacre un certain nombre d’obligations pour les développeurs des Systèmes d’Intelligence Artificielle (SIA) et offre une opportunité pour l’encadrement des requêtes qui sont la principale source des contenus générés par les Large Language Models comme ChatGPT.

C’est notamment le cas pour l’article 52 qui pose l’obligation de transparence en ces termes :

« Les fournisseurs veillent à ce que les systèmes d’IA destinés à interagir avec des personnes physiques soient conçus et développés de manière à ce que les personnes physiques soient informées qu’elles interagissent avec un système d’IA, sauf si cela ressort clairement des circonstances et du contexte d’utilisation ».

cette obligation de transparence mises à la charge des développeurs de SIA peut être étendue à cette nouvelle catégorie de professionnels des requêtes qui devront informer sur les détails de la requête qui à conduit au résultat obtenu pour permettre à tout utilisateur d’avoir un avis sur les termes et l’orientation adoptée.

Une requête en informatique est une interrogation d’une base de données. Elle peut comporter un certain nombre de critères pour préciser la demande [2]. De cette demande dépendra le résultat obtenu qui peut être en lui-même illégal ou favoriser une illégalité.

C’est notamment le cas lorsqu’une le modèle génèrera une sortie similaire à des travaux protégés par le droit d’auteur comme ce fut le cas pour Github copilot.

Si comme le précise Juliette Sénéchal dans son article [3] : « Il pourrait encore être envisagé de permettre à la personne physique d’avoir accès à l’ensemble des autres réponses probables alternatives » nous pouvons dire qu’il serait aussi envisageable de permettre à la personne physique d’avoir accès aux autres types ou styles de requêtes pouvant certainement conduire à des résultats différents.

Un autre pan de la recherche sur cette question concerne le Legal prompt engineering traité dans un article de Dietrich Trautmann, Alina Petrova et Frank Schilder [4].

Les auteurs précisent que le legal prompt engineering (Ingénierie des messages juridiques) est

« le processus de création, d’évaluation et de recommandation des requêtes pour les tâches de traitement du langage naturel juridique. Elle permettrait aux professionnels du droit d’effectuer des tâches de traitement du langage juridique naturel, telles que l’annotation de données, la recherche ou la réponse à des questions, en interrogeant simplement les LLM (Large Language Model) en langage naturel » (Traduction personnalisée).

Avant de développer les implications de ce processus pour les métiers du droit, un dégrossissement du langage technique s’impose.

Le NLP pour Natural Language Processing ou Traitement du Langage Naturel est une discipline qui porte essentiellement sur la compréhension, la manipulation et la génération du langage naturel par les machines. Les applicatifs de cette discipline permettent de trouver des informations contenues dans des sources textuelles, extraire les informations contenues au format texte, organiser les documents au format texte, construire des réseaux d’utilisateurs en fonction de leur intérêt pour certains documents, la récupération d’information (information retrieval) : l’utilisateur soumet une requête (query) et obtient des documents pertinents pour cette demande, la récupération multilingue (cross-language retrieval) : la requête est dans une langue autre que celle des documents, la réponse aux questions (question answering) : la requête est une question en langage naturel, la réponse est un morceau de texte.

Dietrich Trautmann, Alina Petrova et Frank Schilder évoquent ainsi la faisabilité pratique d’un ChatGPT entraîné sur des datasets essentiellement juridiques (Dans leur expérimentation ils ont utilisé un dataset constitué de décisions de la Cour Européenne des droits de l’homme CEDH et de la Cour suprême Suisse). Le modèle auquel ils sont parvenu au terme de leur expérience, bien que lacunaire, est suffisamment prometteur pour proposer des réponses a minima aussi structurées et logiques que celles de ChatGPT, il est d’ailleurs perfectible par l’usage de requêtes juridiques appropriées pré rédigées de concert entre des spécialiste de l’apprentissage machine et des juristes. L’un des objectifs de leur travail est de prédire l’issue probable d’un litige présenté devant une juridiction en réalisant un modèle basé sur des données des juridictions citées ci-haut.

Ces travaux évoquent notamment le concept de « Legal prompting » qui peut s’entendre comme l’art de faire penser une IA comme un juriste afin d’obtenir des résultats juridiquement acceptables. Ce domaine de recherche entends ainsi spécialiser les IA génératives afin d’obtenir des résultats à même de concurrencer la complexité du raisonnement juridique au point de leur faire passer l’examen du barreau.

La propriété intellectuelle et le prompt engineering.

La propriété intellectuelle a initialement été pensée dans l’intérêt des auteurs et des créateurs, afin de favoriser et d’encourager la créativité et l’innovation. On peut se demander si cet intérêt peut être maintenu au bénéfice des intelligences artificielles génératives.

En effet, l’IA étant implémentée par un algorithme sous la forme d’un logiciel, ce sont a priori les mêmes lois et jurisprudences que pour les logiciels qui s’appliquent.

Au regard du droit d’auteur, l’article L112-1 du CPI dispose que « Les dispositions du présent code protègent les droits des auteurs sur toutes les œuvres de l’esprit, quels qu’en soient le genre, la forme d’expression, le mérite ou la destination ». Afin d’être considérée comme telle, la création doit présenter un caractère original, c’est-à-dire porter l’empreinte de la personnalité de son auteur humain.

La requête à une IA générative peut techniquement porter l’empreinte de son auteur humain, notamment sur les formulations, les mots employés, les tournures de phrases, le niveau de vocabulaire, la complexité de la syntaxe … Les caractéristiques du langage peuvent ainsi personnaliser une requête au point de lui conférer une certaine originalité, mais cela suffit-il pour que la requête puisse être protégée par le droit d’auteur ? Un rapport datant du 7 février 2020 du Conseil supérieur de la propriété littéraire et artistique portant sur les problématiques posées par les créations générées par l’IA peut nous orienter. Ce document émet trois hypothèses d’attribution de droits sur les créations des IA (L’attribution de la titularité au concepteur de l’IA, l’attribution de la titularité à son utilisateur, la création d’un régime propre inspiré du droit anglais). Ces pistes de réflexion sont laissées au choix du législateur dont le choix déterminera nécessairement le régime applicable aux requêtes en matière de propriété intellectuelle d’autant plus qu’une profession émerge autour de cette pratique.

Dans un avis parus le 16 mars 2023, l’US copyright office (Le United States Copyright Office (littéralement Bureau du copyright des États-Unis), est une institution située à Washington DC et rattachée à la bibliothèque du Congrès. Son objet est d’enregistrer les copyrights aux États-Unis et de maintenir le Copyright Catalog.), l’équivalent français de l’INPI (Institut national de la propriété intellectuelle) affirmait que les prompts ne suffisent pas à caractériser un effort créatif humain. Les images générées par les intelligences artificielles ne peuvent donc pas bénéficier de la protection par le copyright.

L’office s’appuyait sur la notion d’originalité et de créativité humaine en rappelant que la protection attribuée aux photographies ne pouvait en substance pas être étendue aux créations par intelligence artificielle car la requête ne représente pas un effort en soi.

De cet avis, on peut déduire que si le résultat d’une prompt ne peut, en droit américain de la propriété intellectuelle notamment, pas faire l’objet de protection, il en sera probablement encore moins de la prompt en elle même car, bien que originalement formulée et créativement rédigée, elle ne rentre pas dans les canons du « human author requirement » que l’on retrouve également en droit français.

Le prompt engineering pose ainsi plusieurs enjeux juridiques qui méritent une grande attention pour l’affinement de la réglementation en construction et l’adaptation de cette nouvelle profession aux principes et valeurs des métiers du droit.

Patrick Nguetchouessi, Juriste Société Legapass.

[1Les modèles de TTS - text to speech comme murf.ai et pay.ht ou meme le logiciel open source Balabolka existent depuis les années 50.

[3Juliette Sénéchal, L’IA Act déjà obsolète face aux IA de nouvelle génération ? L’exemple de ChatGPT, Dalloz actualité, Professeur à l’Université de Lille - 1 février 2023.

[4Legal Prompt Engineering for Multilingual Legal Judgement Prediction https://arxiv.org/abs/2212.02199