Village de la Justice : Quelles règles s’appliquent actuellement aux IA génératives tels que ChatGPT en France ? Quel regard la CNIL a-t-elle dessus ?
Thomas Dautieu : « Les IA génératives sont soumises à ce titre au Règlement Général sur la Protection des Données (RGPD). En effet, ces algorithmes sont entraînés à partir de grandes bases de données susceptibles de contenir des données à personnelles, par exemple lorsqu’elles contiennent des photos, mais aussi des informations identifiantes sur une personne, y compris lorsque ces données ont été collectées à partir de sources librement accessibles en ligne. Une fois déployés, ces algorithmes interagissent avec des utilisateurs qui les nourrissent, eux aussi, en données personnelles : c’est le cas lorsque quelqu’un fournit des éléments de contexte à ChatGPT pour recevoir un conseil ou une information personnalisée.
Au titre du RGPD, la CNIL est compétente pour s’assurer que la protection des données personnelles est bien respectée dans la conception et l’usage de ces IA génératives. Elle peut vérifier, par exemple, que ces IA ne sont pas entraînées avec n’importe quelle base de données, qu’elle ne collecte pas plus d’informations que nécessaire, et que son usage est clairement déterminé et encadré afin qu’elles restent protectrices de la vie privée des utilisateurs. La CNIL a commencé par publier une série de fiches pratiques pour détailler comment les concepteurs de systèmes d’IA peuvent et doivent le faire en conformité avec le RGPD. Elle travaille actuellement à la publication de fiches portant spécifiquement sur les modèles d’IA générative. »
V.J : Ce serait quoi, idéalement, « une IA respectueuse des données personnelles » ? Pensez-vous que cela soit utopiste ?
T.D : « Il existe plusieurs grandes familles de modèles d’IA, certaines plus "voraces" que d’autres en données d’entraînement, comme l’apprentissage profond (deep learning). Si ce dernier est à l’origine des progrès fulgurants que l’on a observés récemment avec les grands modèles de langages comme ChatGPT, il faut garder en tête que l’IA ne se résume pas à cela. Dans beaucoup de situations, il est possible de choisir des modèles qui, par construction, nécessiteront beaucoup moins de données pour être entraînés.
Dans certains cas, on peut travailler sans perte de généralité avec des bases de données d’entrainement "pseudonymisées", c’est-à-dire transformées pour réduire les risques de réidentification des personnes.
D’autres stratégies, dites de "désapprentissage machine", consistent à faire "oublier" certaines informations à l’algorithme, tout en préservant sa performance. La gestion des bases de données de conception, une fois la tâche d’entraînement accomplie, est aussi déterminante.
Par ailleurs, si ces systèmes sont très gourmands en données, des IA "frugales", c’est-à-dire plus économes en données que les systèmes actuels, commencent à émerger. À noter également que certains modèles peuvent être déployés directement en local sur les appareils des utilisateurs (comme un ordinateur ou un ordiphone), ce qui est aussi un exemple de protection des données par défaut. »
V.J : Comment construire une « régulation adaptée » : faut-il de nouveaux textes ou ceux existant (dont le RGPD) suffisent-ils ?
T.D : « S’il n’a pas été pensé pour réguler l’Intelligence Artificielle en particulier, le RGPD prévoit un certain nombre de principes et d’obligations générales qui se révèlent très pertinents, tant pour réguler la conception de systèmes d’IA que leur utilisation. C’est par exemple le cas des principes de responsabilisation des acteurs, de la loyauté et de la transparence des traitements, et de l’exercice des droits des personnes sur leurs données, qui sont au cœur des systèmes d’IA générative.
C’est d’ailleurs la raison pour laquelle le projet de Règlement Européen sur l’Intelligence Artificielle [4] n’a pas vocation à le remplacer mais à le compléter. Ce dernier prévoit notamment une approche par les risques consistant à interdire certains systèmes d’IA considérés comme trop risqués (comme les systèmes de notation sociale) et à imposer des exigences supplémentaires pour les systèmes qu’il qualifie comme étant à haut risque (comme les systèmes d’IA dans le domaine du recrutement ou du travail). Une régulation adaptée devra prendre en compte les différents textes applicables, donc, le RGPD pour la protection des données, mais aussi des exigences sectorielles propres au champ d’application. »
V.J : Les « innovateurs publics » qui innovent et innoveront en la matière vous semblent-ils plus sensibilisés à penser leurs projets IA by design ?
T.D : « En classant les systèmes d’IA par les risques qu’ils présentent, le Règlement IA a fortement contribué à placer la question de la protection des utilisateurs au centre des débats, soulevant des questions à la fois de règlementation et d’éthique. Plusieurs acteurs publics s’interrogent d’ores et déjà sur les bonnes manières de faire de l’IA pour anticiper le déploiement d’outils d’IA fiables dans leurs services. L’utilisation de modèles de langage en appui aux employés est notamment un des enjeux soulevés par le secteur. Pour faciliter cette transition vers les bonnes pratiques IA, la CNIL a mis en place un « Bac à sable » pour conseiller et accompagner des projets utilisant l’IA au bénéfice du service public. Dans ce cadre, elle accompagne notamment la DINUM, la RATP et France travail à établir un plan d’action pour intégrer l’IA dans leurs services en conformité avec le RGPD. »
V.J : Est-ce que réguler et règlementer, c’est freiner l’innovation ?
T.D : « La régulation d’un secteur d’activité impose inévitablement des obligations à un secteur donné. Concernant la protection des données, le RGPD allège le niveau des obligations existantes avant son entrée en vigueur et, surtout, adapte leur niveau au risque présenté par un traitement. Objectivement, un organisme, qu’il soit public ou privé, mettant en œuvre un traitement ne présentant pas de risques élevés pour les droits et libertés des personnes ne peut pas voir dans le RGPD un obstacle insurmontable.
Concernant plus spécifiquement l’innovation, notamment en matière d’IA, la régulation permet aux entreprises innovantes de connaître le cadre juridique dans lequel elles peuvent déployer leurs efforts ; elle évite ainsi aux jeunes pousses de développer des produits pour ensuite se rendre compte que ceux-ci sont finalement contraires à certains principes ou textes juridiques.
La régulation permet aussi de créer un climat de confiance avec les citoyens-consommateurs et d’éviter le "far-west numérique" préjudiciable à tous. Enfin, pour conjuguer au mieux innovation et régulation, la CNIL s’est résolument lancée dans un programme d’accompagnement des acteurs innovants au travers de ses programmes de Bac à sable et d’accompagnement renforcé. »