Le règlement (UE) 2024/1689 du 13 juin 2024 relatif à l’intelligence artificielle (ci-après le RIA), entré en vigueur le 1ᵉʳ août 2024, a entériné l’application de l’exception de fouille de textes et de données à l’entraînement des modèles d’intelligence artificielle.
Cette exception, issue de l’article 4 de la directive (UE) 2019/790 du 17 avril 2019 sur le droit d’auteur et les droits voisins dans le marché unique numérique (dite directive Damun), permet l’utilisation d’œuvres protégées sans autorisation préalable, sauf opposition expresse des titulaires de droits par le mécanisme de la réserve de droits (« opt-out »).
Ce régime constitue une dérogation au principe cardinal du droit d’auteur, selon lequel toute reproduction d’une œuvre suppose l’accord préalable de son auteur ou de ses ayants droit.
Afin d’en encadrer la portée, le législateur européen a assorti cette exception de deux garde-fous :
1. L’obligation pour les fournisseurs de modèles d’IA « d’identifier » et « respecter », y compris « au moyen de technologies de pointe », les oppositions exprimées par les ayants droit, en s’appuyant sur des codes de bonnes pratiques [1] ;
2. L’obligation pour les fournisseurs de publier « un résumé suffisamment détaillé des données utilisées » afin « d’aider » les titulaires de droits d’auteur à exercer et à faire respecter leurs droits » [2] conformément à un modèle fourni par le bureau de l’IA [3].
Le législateur européen a ainsi tenté de concilier la protection de la création avec le développement d’une intelligence artificielle européenne compétitive.
L’effectivité de cet équilibre demeure toutefois incertaine à la suite de la publication par la Commission européenne en juillet dernier du code de bonnes pratiques et du modèle de résumé, lesquels ont été dénoncés par une coalition d’ayants droit [4].
Demeure en suspens, les modalités de rémunération des ayants droit et le partage de la valeur pour lequel le CSPLA a ébauché quelques pistes.
I. Le Code de bonnes pratiques : un encadrement en trompe l’œil ?
Le Code de bonnes pratiques pour les modèles d’IA à usage général est dépourvu de valeur normative contraignante. Pour les fournisseurs qui y adhèrent, il constitue toutefois un instrument de démonstration de conformité au RIA, en instaurant une présomption de conformité.
En matière de droit d’auteur, le Code organise deux séries de dispositions distinctes : celles relatives à l’accès aux contenus protégés et celles portant sur la prise en compte de la réserve de droits.
1. L’accès licite aux contenus protégés : un rappel sans portée normative nouvelle.
Le Code de bonnes pratiques impose aux fournisseurs de modèles d’IA à usage général de limiter les opérations de fouille aux seuls contenus légalement accessibles. Il leur est notamment interdit de contourner des mesures techniques de protection, telles que les paywalls ou dispositifs de restriction d’accès.
En substance, ces dispositions se bornent à rappeler les obligations générales résultant du droit positif en matière de droit d’auteur. Le contournement de mesures techniques de protection et l’accès non autorisé à des contenus protégés étant déjà prohibés, le Code n’introduit aucune exigence juridique nouvelle sur ce point.
Le Code prévoit également l’exclusion des sites identifiés par les autorités de l’Union européenne comme contrefaisants. Un tel mécanisme pourrait toutefois conduire, a contrario, à une présomption de licéité des sites non répertoriés, avec pour effet de limiter la responsabilité des fournisseurs d’IA à l’égard des contenus issus de sources non identifiées comme illicites.
Or, une telle approche est difficilement conciliable avec le droit d’auteur, la contrefaçon étant indépendante de toute considération de bonne foi : la reprise de contenus piratés engage la responsabilité de l’exploitant, y compris lorsque la source n’est pas identifiée comme illicite.
2. La réserve de droits : une effectivité conditionnée à la diligence des ayants droit.
L’article 53, §1, c) du RIA renvoie expressément à l’article 4 de la directive Damun, consacrant l’applicabilité de l’exception de fouille de textes et de données aux activités d’entraînement des modèles d’intelligence artificielle.
L’application de l’exception demeure subordonnée à l’absence de réserve de droits valablement exprimée.
Ni la directive Damun ni le RIA ne définissent les modalités techniques de mise en œuvre de la réserve de droits.
Le Code de bonnes pratiques consacre à cet égard le protocole robots.txt, conçu pour orienter l’indexation des contenus, comme standard minimal. Or ce mécanisme ne garantit pas la possibilité d’autoriser l’accès aux contenus à des fins d’indexation tout en interdisant leur utilisation à des fins de fouille de textes et de données. Il ne distingue pas nécessairement les différentes finalités d’accès aux contenus et ne saurait, à ce titre, garantir l’effectivité de la réserve de droits prévue par la directive Damun et le RIA.
Le recours à ce protocole aurait gagné à être assorti d’un engagement garantissant la différenciation des usages juridiquement distincts des contenus.
Le Code envisage certes la prise en compte, à l’avenir, d’autres mécanismes techniques, sous réserve qu’ils soient « largement adoptés par les titulaires de droits ».
En pratique, cette approche fait peser sur les ayants droit la charge d’identifier un mécanisme techniquement opérant, d’en assurer la diffusion et d’en garantir l’opposabilité.
En leur absence, les fournisseurs d’IA pourraient se prévaloir d’une exception qui n’est pourtant pas applicable, faute de mécanisme existant permettant son respect.
II. Transparence : du « résumé détaillé » du CSPLA à une obligation essentiellement déclarative.
1. Le CSPLA : le résumé comme outil de contrôle.
Dans son rapport du 11 décembre 2024 consacré à la mise en œuvre du RIA au regard du droit d’auteur, le CSPLA a conçu le « résumé détaillé des données d’entraînement » comme un véritable instrument de transparence au service des ayants droit [5].
À ce titre, le CSPLA proposait notamment :
- une granularité élevée selon la nature des données, impliquant, pour les œuvres protégées, l’identification des corpus précis utilisés, des URL sources et des dates de collecte ;
- une traçabilité des bases d’entraînement, reposant sur l’attribution d’identifiants uniques ;
- un rôle actif reconnu aux ayants droit, leur permettant de vérifier l’inclusion de leurs œuvres et, le cas échéant, d’engager une négociation de licences.
Ce dispositif faisait ainsi du résumé un levier de contrôle et de négociation, fondé sur le détail des données utilisées, à rebours d’une conception purement agrégée et déclarative de la transparence.
2. La commission : le résumé comme instrument de conformité.
Le modèle de résumé publié par le Bureau européen de l’IA en juillet 2025, en application de l’article 53, §1, d) du RIA, s’inscrit dans une logique sensiblement différente, privilégiant une transparence standardisée et agrégée.
Il impose aux fournisseurs de modèles d’IA à usage général la publication d’un résumé limité à :
- des informations globales et agrégées sur les catégories de données utilisées (types de contenus, volumes exprimés par grandes fourchettes, langues couvertes) ;
- pour les activités de web-scraping, la mention des seuls domaines les plus fréquemment utilisés, dans la limite des 10% de domaines principaux (seuil abaissé à 5% ou à 1 000 domaines pour les PME), sans identification des pages, corpus ou œuvres concernées ;
- une référence générale aux données fournies par les utilisateurs et aux données synthétiques, sans précision sur leur rôle effectif dans l’entraînement ;
- une mise à jour semestrielle du résumé.
Cette approche permet aux fournisseurs d’attester du respect formel des obligations prévues par le RIA, sans toutefois remplir le rôle assigné au résumé par le législateur, qui devait permettre aux titulaires de droits d’identifier l’utilisation de leurs œuvres.
III. Rémunération et partage de la valeur : une réflexion encore inaboutie.
Dans son rapport économique de juin 2025, le CSPLA aborde la question du partage de la valeur générée par les systèmes d’intelligence artificielle [6].
Il y évoque la création d’une place de marché centralisée, permettant aux fournisseurs d’IA d’accéder à des contenus protégés moyennant rémunération. Cette approche, régulièrement envisagée en matière culturelle, vise à faciliter l’acquisition des droits par le regroupement de l’offre dans un espace unique, mais se heurte à la diversité des œuvres, des ayants droit et des usages concernés, sans qu’une faisabilité opérationnelle ait, à ce stade, été établie.
Le rapport propose également une gradation des niveaux de rémunération en fonction de la destination des modèles. Il distingue ainsi, de manière schématique, les modèles généralistes, assortis d’un niveau de rémunération de base ; les modèles culturels spécialisés ne produisant pas eux-mêmes de contenus concurrents, relevant d’un niveau intermédiaire ; et les modèles spécialisés produisant des contenus susceptibles de concurrencer directement les œuvres humaines, appelant un niveau de rémunération plus élevé.
Cette gradation soulève toutefois des interrogations. D’une part, il n’apparaît pas évident que les modèles spécialisés, dont les usages ne conduisent pas à la production de biens culturels concurrents, justifient un niveau de rémunération supérieur à celui des modèles généralistes, lesquels peuvent, selon les usages, produire des effets indirectement concurrents de la création humaine.
D’autre part, elles reposent sur des catégories dont la stabilité juridique demeure incertaine, dès lors qu’un même modèle peut, selon les usages qui en sont faits, produire des résultats non substitutifs ou, au contraire, directement concurrents des œuvres humaines.
Ces pistes ont le mérite de nourrir la réflexion sur le partage de la valeur, sans avoir, à ce stade, été intégrées dans le cadre normatif du RIA.
Conclusion.
Le cadre européen de l’intelligence artificielle a entériné l’application de l’exception de fouille de textes et de données, aux modèles d’intelligence artificielle, assortie d’une réserve de droits et d’une obligation de transparence.
Dans sa mise en œuvre, la Commission a toutefois privilégié des instruments souples et essentiellement déclaratifs, faisant largement reposer l’effectivité de la protection sur la vigilance des ayants droit.
A l’inverse, le CSPLA a exploré des pistes fondées sur une transparence plus opérationnelle et une réflexion économique sur le partage de la valeur, sans que ces orientations aient, à ce stade, été intégrées dans le cadre normatif européen.
À défaut d’une clarification des conditions économiques d’exploitation des œuvres, le contentieux pourrait devenir le principal vecteur d’ajustement du cadre juridique européen de l’IA.


