Village de la Justice www.village-justice.com

Big Data, intelligence artificielle, apprentissage automatique et le RGPD. Par Jean-Pierre Mistral, Director Global Data Privacy.
Parution : vendredi 5 janvier 2018
Adresse de l'article original :
https://www.village-justice.com/articles/big-data-intelligence-artificielle-apprentissage-automatique-rgpd,26838.html
Reproduction interdite sans autorisation de l'auteur.

Tous les jours nous générons des trillions de données. Ces données résultent de messages sur les sites web, de capteurs localisés dans notre maison, d’objets portables tels que le téléphone ou la montre connectée, les senseurs des centres commerciaux, pour ne donner que quelques exemples. L’ensemble de ces données tombe dans la notion de big data ou volume massifs de données.
Le but de cet article est (1) d’expliquer comment les données du big data sont analysées par l’utilisation de l’intelligence artificielle et l’apprentissage automatique (ou en anglais machine learning), et (2) de mettre un éclairage sur l’implication du big data dans le cadre du RGPD.

Il est évident que le big data apporte des bénéfices sociaux en permettant d’obtenir des connaissances plus précises sur le comportement des individus, le déplacement d’une épidémie, ou encore en rendant une entreprise plus agile ou plus efficace dans la gestion de ses actifs.
Le big data est donc le résultat d’une collection considérable de données, y compris des données personnelles, ce qui a des implications sur la vie privée des individus.

1- L’analyse des données du big data.

A la lumière du volume important de données du big data il est nécessaire d’utiliser des moyens d’analyse diffèrent des méthodes d’analyse traditionnelles.

Tout d’abord l’utilisation de l’intelligence artificielle ou IA qui peut se définir comme une discipline scientifique relative au traitement des connaissances et au raisonnement, dans le but de permettre à une machine d’exécuter des fonctions normalement associées à l’intelligence humaine : compréhension, raisonnement, dialogue, adaptation, apprentissage, etc. [1]. La caractéristique de l’IA est que les données ne sont pas analysées comme elles ont été initialement programmées. Les programmes d’IA apprennent à partir des données afin de répondre intelligemment aux nouvelles données et ainsi fournir des résultats correspondants [2].

Un des moyens d’application de l’IA est l’apprentissage automatique.
Grâce à l’apprentissage automatique, les ordinateurs apprennent sans être explicitement programmés. Lorsque nous achetons en ligne, l’apprentissage automatique permet de recommander d’autres produits qui pourraient nous intéresser en fonction des produits que nous avons achetés. Lorsque nous utilisons notre carte de crédit, l’apprentissage automatique compare la transaction à une base de données de transactions telles que la zone géographique habituelle de transactions et ainsi permet la détection des fraudes. Lorsque notre voiture nous indique la durée d’un trajet jusqu’à notre domicile, l’apprentissage automatique permet de déterminer où se trouve notre domicile.

Pour résumer, le volume de données composant le big data peut-être considéré comme difficilement exploitable sans un support informatique. L’IA est donc l’intelligence qui permet une exploitation efficace du big data, et l’apprentissage automatique est l’une des techniques qui facilitent l’IA.

Cet ensemble, big data, IA et l’apprentissage automatique caractérise le concept de « big data analytics » qui est caractérisé, en ce qui concerne le traitement des données, par les éléments suivants :

a) la collecte et l’analyse de toutes les données disponibles, par exemple analyser tous les achats effectués par un individu utilisant une carte de fidélité ou une carte bancaire afin de trouver des corrélations, plutôt que de demander à un échantillon d’individus de répondre à une enquête.

b) l’utilisation de données dans un but différent de celui pour lequel les données ont été collectées. Des entreprises prennent des données des réseaux sociaux (Twitter, Facebook, Google Plus, Tumblr, etc..) afin de les rendre disponibles à des fins d’analyse marketing. Les données de localisation de notre téléphone mobile sont utilisées pour analyser le nombre de personnes présentes dans un centre commercial.

c) l’utilisation de données qui ne sont pas fournies d’une manière consciente ou volontaire par les individus. Souvent les données analysées sont générées automatiquement par des objets connectés (le téléphone portable) ou notre activité sur la toile.

Au vu de ces caractéristiques nous en venons donc à l’analyse de l’impact du RGPD.

2- L’implication du big data dans le cadre du RGPD.

L’article 5.1(a) du RGPD dispose « Les données à caractère personnel doivent être traitées de manière licite, loyale et transparente au regard de la personne concernée. »

Une entreprise qui utilise les données afin de procéder à une analyse doit donc se poser la question si le traitement est licite, loyal et transparent. Ce qui signifie qu’elle devra :
- déterminer si l’information transmise aux individus sur le traitement des données est claire et précise ;
- déterminer les effets du traitement sur les individus ;
- vérifier si d’autres utilisations des données sont incompatibles avec le but pour lequel elles ont été originairement collectées (principe de limitation de la finalité).

Il faut aussi s’interroger sur les conditions qui justifient le traitement des données conformément à l’article 6 du RGPD.
Les entreprises peuvent s’appuyer soit sur :
- le consentement des individus en tenant compte de l’article 4(11) et du considérant 32 du RGPD « le consentement devrait être donné par un acte positif clair par lequel la personne concernée manifeste de façon libre, spécifique, éclairée et univoque son accord au traitement des données à caractère personnel la concernant,… . Le consentement donné devrait valoir pour toutes les activités de traitement ayant la ou les mêmes finalités. Lorsque le traitement a plusieurs finalités, le consentement devrait être donné pour l’ensemble d’entre elles ».
Le consentement de l’individu peut s’avérer compliqué dans le domaine du big data analytics.
Une solution serait d’envisager un processus de consentement progressif, dans lequel les individus peuvent donner ou refuser leur consentement suivant les différentes utilisations de leurs données au lieu d’avoir un consentement au tout début du service ce qui peut être incompatible avec le RGPD.

- L’intérêt légitime de l’article 6(1)(f) du RGPD. Ce qui signifie que le traitement doit être "nécessaire" aux intérêts légitimes. Le traitement n’est pas nécessaire s’il existe un autre moyen que l’intérêt légitime qui interfère moins avec la vie privée des personnes. Le concept d’intérêt légitime oblige aussi à expliquer le traitement des données conformément à l’exigence d’équité.
De plus en application des articles 13(1)(d) et 14(2)(b) du RGPD le responsable du traitement devra fournir des explications sur l’intérêt légitime dans sa notice de traitement des données.

Il sera nécessaire de tenir compte de l’article 5(1)(c) du RGPD qui dispose « Les données à caractère personnel doivent être traitées de manière adéquates, pertinentes et limitées à ce qui est nécessaire au regard des finalités pour lesquelles elles sont traitées (minimisation des données). » alors que le big data analytics implique la collecte et l’analyse d’autant de données que possible. Les entreprises doivent donc être en mesure d’articuler dès le départ pourquoi elles ont besoin de collecter et de traiter un volume important de données des individus. Le défi est donc de définir les finalités du traitement et établir quelles données sont nécessaires.

Bien sûr il va falloir respecter le droit des individus de l’Article 15 du RGPD. Le respect du droit des individus oblige les entreprises à pratiquer une bonne gestion des données et mettre en place les outils nécessaires pour interroger les bases de données afin de trouver toutes les informations qu’elles ont sur un individu afin de procéder à la modification, transfert ou élimination des données. Le volume et la variété des données et la complexité du traitement peuvent rendre cette gestion plus difficile. Une solution est de localiser les données sur un même serveur en appliquant bien sûr les règles de sécurité adéquates (Article 32 du RGPD).

Il convient d’ajouter le concept de responsabilité des Articles 5(2) et 30(1)(b) du RGPD qui oblige les entreprises à démontrer la conformité de leur traitement des données au RGPD. Notamment l’obligation de tenir à jour un fichier de traitement des données. Cela peut-être problématique dans le contexte du big data puisque l’analyse initiale des données est souvent expérimentale dans le but de développer par l’apprentissage un algorithme.

Un autre élément qui rentre dans le concept de responsabilité est l’exigence de nommer un délégué à la protection des données (Article 37 (1) (b) du RGPD) « Le responsable du traitement et le sous-traitant désignent en tout état de cause un délégué à la protection des données lorsque les activités de base du responsable du traitement ou du sous-traitant consistent en des opérations de traitement qui, du fait de leur nature, de leur portée et/ou de leurs finalités, exigent un suivi régulier et systématique à grande échelle des personnes concernées. »

Finalement on en vient à déterminer qui est le responsable du traitement et qui est le sous-traitant. Dans le contexte du big data analytics la distinction entre le responsable du traitement et le sous-traitant peut-être difficile à établir.
Si une entreprise fait le choix d’externaliser l’analyse des données, la question se pose de savoir qui détermine réellement les fins et la manière du traitement.
Si l’entreprise à qui est confié le big data analytics a assez de liberté pour utiliser son expertise pour décider quelles données collectées et comment appliquer ses techniques analytiques, elle est susceptible d’être un responsable du traitement. Par exemple si une entreprise possède une flotte de voitures et utilise les services d’une entreprise extérieure afin de connaitre en temps réel la localisation des véhicules, il est évident que l’entreprise extérieure va déterminer le type, la quantité de données à collecter, ainsi que la périodicité de la collecte. L’entreprise propriétaire des véhicules ne recherche qu’une information ‘la localisation des véhicules’. Dans ce cas précis l’entreprise extérieure est vraisemblablement le responsable du traitement.

Pour conclure, cet article ne fait qu’efflorer l’application du big data analytics dans les relations humaines liées au besoin de conserver une sphère privée qui nous appartient et que nous nous devons de contrôler.
Le but des lois et règlement sur la protection des données personnelles est de permettre la libre circulation des données dans un but productif pour la société dans son ensemble tout en assurant la protection des individus lors de la collection et l’utilisation de leurs données personnelles.

Le rôle de ces lois et règlement est d’autant plus important car d’après une étude menée par MarketsandMarkets [3], le marché du Big Data mondial pourrait atteindre une valeur de 66,79 milliards de dollars en 2021.

Cette prévision de valeur se fera grâce à l’utilisation de nos données personnelles, ce qui pose aussi un problème de propriété intellectuelle car les algorithmes développés par des entreprises privées deviendront la propriété de ces entreprises et donc générateur de valeur au sens financier.
Se posent donc les questions de la valeur que nous devrions recevoir en échange de l’extraction de nos données personnelles et aussi en ce qui concerne le droit de la concurrence si l’algorithme développé devient la propriété d’une entreprise disposant d’un quasi-monopole sur un ou plusieurs domaines.

Jean-Pierre Mistral Gemalto VP & Director Global Data Privacy