Il faut savoir que la directive européenne 2019/790, dont on a entendu parler à propos des upload filter, l’accusant de mettre en place un contrôle des GAFAM, voire de vouloir mettre fin à internet, a ouvert à tous le droit de procéder aux fouilles de textes et de données, également connues sous le nom de data-mining.
En d’autres termes, loin de fermer l’internet ou de le contrôler, cette directive autorise les reproductions et les extractions d’œuvres protégées par des intelligences artificielles, en particulier génératives. Quand même, il faut que ces œuvres et ces données soient accessibles de manière licite. C’est-à-dire que si ces données sont verrouillées ou bien derrière un paywall (type abonnement, ou téléchargement payant), le data mining, le scraping ou extraction de données ne sont pas autorisés.
Qu’est-ce que cela veut dire en pratique ? Cela veut dire que les journaux, les musées qui reproduisent des œuvres sur leur site, les pages de créateurs, musiciens, photographes, experts en tous genre, psychologues peuvent être librement exploitées et réutilisées par ChatGPT et les autres fameux LLM, ou « large language models ».
C’est ennuyeux pour eux, mais c’est très précieux pour nous, utilisateurs. Nous nous réjouissons de pouvoir utiliser cet outil génial, qui nous permet d’écrire des lettres, faire des tableurs, des schémas, des devoirs, des interventions publiques et j’en passe…
Mais il importe de prendre conscience, en tant qu’opérateurs économiques, blogueurs, polémiqueurs sur X, auteurs d’articles scientifiques ou d’opinion, que c’est que tout ce que nous mettons en ligne, sur nos sites internet et sur les réseaux sociaux, mais aussi sur ChatGPT, qui est fouillé et réutilisé par ChatGPT, Gemini, Claude, YouChat et la bande.
Parfois, nos sites mettent à disposition des informations très précieuses, les articles que nous avons écrits, des dessins représentant le nouveau modèle de produits que nous avons créés, le projet d’immeuble vert soumis lors d’un appel d’offre d’architecte. Nous espérons ainsi par nos pages internet ou nos articles publiés via LinkedIn ou Facebook, intéresser nos interlocuteurs, trouver de nouveaux clients, communiquer sur nos succès. Nous invitons ainsi les moteurs de recherche traditionnels à venir nous voir, et à référencer notre contenu. Nous optimisons même nos pages internet pour que notre contenu apparaisse dans les premiers résultats. Et certes, un moteur de recherche va conduire vers notre page, nous apporter de la visibilité, nous rapprocher de nos clients.
Mais tel n’est pas le cas du data mining. Car nous l’avons tous testé, ChatGPT et les autres ne donnent pas ou peu leurs sources - à l’exception notoire de Perplexity.ai. Ils donnent des résultats à partir de ce qu’ils ont trouvé. Donc ils utilisent votre savoir-faire, vos logos, vos marques, vos découvertes, vos dessins, vos explications pour les donner à d’autres. Et ces autres ne savent pas que ce qu’ils utilisent est protégé, que c’est vous qui l’avez inventé, après des années de recherche et de développement. Vous avez disparu.
En revanche, tout un chacun peut utiliser ce que vous avez développé. En avons-nous conscience ?
La même directive a prévu un moyen pour empêcher cela, mais il dépend de nous et implique que nous devenions actifs : l’opt out. Que dit la directive : que le data mining est autorisé sauf si l’utilisation des œuvres et autres objets protégés a été expressément réservée par leurs titulaires de droits « de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne ».
Dans la pratique, que faut-il faire ?
D’abord, il est essentiel de revoir vos conditions générales de vente et d’utilisation de vos sites internet, pour y signaler clairement que l’utilisation des contenus par des tiers, notamment dans le cadre de la fouille de textes et de données est réservée, ou plus clairement encore, est interdite. Car en vous appuyant sur vos conditions générales, vous pourrez toujours agir contre un tiers, en cas d’utilisation problématique pour vous.
Après tout, la directive ne décrit pas précisément ce qu’est un « procédé lisible par machine », destiné à signaler aux opérateurs d’intelligence artificielle qu’on s’oppose à la fouille de texte. On peut imaginer qu’une intelligence artificielle générative soit assez intelligente pour examiner les conditions d’utilisation des sites internet et les analyser, puisqu’elle est assez intelligente pour lire les sites eux-mêmes et leurs conditions générales pour les utiliser et rédiger par exemple, à la demande d’un autre client, d’autres CGV… D’ailleurs, une décision d’un Tribunal de Hambourg a considéré que ce signalement par des conditions générales sur le site internet, suffisait à interdire l’usage.
Cette première étape est indispensable, car elle exprime votre refus de tout donner au monde entier. Mais dans la pratique, ce n’est pas comme cela que cela se danse. Il faut faire une démarche active auprès des opérateurs d’intelligence artificielle, aller sur chacun de leurs sites, et activer, après des démarches dont la simplicité et la rapidité n’ont d’égal que celles de trouver une aiguille dans une botte de foin, votre opt-out. Cette démarche doit être faite auprès des opérateurs, ce qui implique de s’informer régulièrement des nouveaux opérateurs de LLM et autres IA génératives.
Il existe par ailleurs des solutions techniques et outils très précieux qui permettent la protection et la traçabilité des contenus sur Internet. IMATAG, grâce à système de tatouage invisible et robuste, insère des métadonnées et inscrit par exemple des marques dans les pixels des photographies. Robots.txt est un fichier texte, placé à la racine d’un site web, qui indique aux robots des moteurs de recherche (crawlers ou spiders) quelles parties d’un site web ils peuvent ou ne peuvent pas explorer. La Coalition for Content Provenance and Authenticity (C2PA), initiative d’Adobe, Arm, Intel, Microsoft et Truepic, vise à établir un nouveau standard de vérification de l’authenticité des contenus numériques, afin de restaurer la confiance dans l’information en ligne. Botscorner, entreprise spécialisée dans la détection des robots pilleurs de contenus, permet aux éditeurs de presse d’identifier les bots qui « crawlent » leurs sites, et les entreprises qui les contrôlent.
Des voix estiment que l’autorisation aux fins de data mining de la directive de 2019, n’ai pas été pensée pour l’IA générative (par exemple en Allemagne, VGWort et Initiative Urheberrecht). Et pour cause, à l’époque, les grands modèles génératifs n’existaient pas. Pour elles, aucune exception ne serait faite aux droits des auteurs pour ce cas particulier, et l’autorisation devrait être réclamée avant tout data mining. Faut-il pour autant ne pas exercer d’opt out ? En attendant que la Cour Européenne soit saisie sur cette question, l’opt out est très fortement recommandé à titre préventif !