Les métadonnées : pourquoi le Petit Poucet ne se serait jamais perdu. Par Jean-Pierre Mistral, Director Global Data Privacy.

Ces traces digitales que nous laissons à travers notre vie sur le net s’appellent "métadonnées".
Les métadonnées désignent « des données décrivant d’autres données ». Les métadonnées sont particulièrement utiles dans les systèmes d’informations. Lorsque vous avez un système complexe, la disponibilité des métadonnées vous aide à trier et à traiter la variété de données provenant de ce système, afin que vous puissiez rapidement accéder au cœur du problème.

Les critères de sécurité les plus couramment utilisés sont la confidentialité (assurance que les informations ne sont partagées qu’entre organisations ou personnes autorisées), l’intégrité (garantie que les informations sont authentiques et complètes), la disponibilité (assurance que les systèmes chargés de fournir, de stocker et de traiter les informations sont accessibles lorsque nécessaires, par ceux qui en ont besoin) et la traçabilité (capacité de mettre en corrélation chronologique des entités uniquement identifiables d’une manière vérifiable).

Pour garantir le respect de ces critères, le système d’informations doit collecter et stocker diverses métadonnées : date, adresse IP utilisée, emplacement de l’utilisateur, etc. Ces métadonnées seront évidemment utilisées pendant le cycle de vie d’un système d’informations pour contrôler l’utilisation, faciliter la création de rapports et l’analyse (c’est-à-dire la veille stratégique) et à des fins de dépannage. Mais elles peuvent également être consultées ultérieurement pour la traçabilité des actions effectuées et servent ainsi de preuve en cas de litige ou de criminalistique numérique.

Certaines de ces métadonnées peuvent toutefois être considérées comme des données personnelles de l’utilisateur (individus ou entreprises) et suscitent donc des préoccupations en matière de confidentialité, car les métadonnées peuvent révéler beaucoup d’informations sur les utilisateurs. Beaucoup de gens croient en un « mythe de l’anonymat », c’est-à-dire la conviction que les individus restent anonymes s’ils n’ont pas officiellement utilisé leur nom. Cette croyance est particulièrement fausse dans les activités dans le cyberespace car la vitesse de la technologie a rendu de moins en moins nette la distinction entre données personnelles et données non personnelles. En fait, la capacité de distinguer des données personnelles de données non personnelles est souvent contextuelle.

Il est donc nécessaire de comprendre (1) qu’est-ce qu’une métadonnée ? (2) comment est-elle collectée ? (3) sa sensibilité, et (4) les implications juridiques de la vie privée déclenchées par son traitement.

1- Les métadonnées qu’est-ce que c’est ?

Les métadonnées sont diverses et peuvent inclure des durées, des dates, des lieux, des éléments permettant d’identifier des personnes, etc. Par exemple les métadonnées concernant un contact téléphonique :
• numéro de téléphone des personnes avec lesquelles vous avez appelé ou que vous avez envoyé des SMS ;
• heure et date des appels et SMS ;
• durée des appels ;
• l’emplacement de la tour de téléphonie cellulaire la plus proche lorsque vous avez envoyé ou reçu un appel ou un SMS.

Et pour l’activité internet :
• l’heure, la date, la taille, l’expéditeur et les destinataires des emails ;
• heure et durée de vos connexions Web ;
• votre adresse IP ;
• le volume de vos téléchargements et téléchargements ;
• localisation et données géographiques.

L’article L 127-1 al 6 du Code de l’environnement définit métadonnée comme l’information décrivant les séries et services de données géographiques et rendant possible leur recherche, leur inventaire et leur utilisation.

Pour nous assurer que la définition des métadonnées est suffisamment large, nous pouvons considérer que les métadonnées sont composées de données qui sont autres que le contenu du message envoyé :
• Données d’abonné : qui permettent l’identification d’un abonné à un service. Exemples : nom de l’abonné, adresse, numéro de téléphone ;

• Données de communication électronique : telle que définies à l’article 4, paragraphe 3, point c) de la proposition de règlement sur la protection de la vie privée, "données traitées sur un réseau de communication électronique aux fins de la transmission, de la distribution ou de l’échange de contenu de communication électronique ; y compris les données utilisées pour retrouver et identifier la source et la destination d’une communication, les données sur l’emplacement du dispositif générées dans le cadre de la fourniture de services de communication électronique, ainsi que la date, l’heure, la durée et le type de communication".

• Journal d’accès : qui enregistre l’heure et la date à laquelle une personne a accédé à un service, ainsi que l’adresse IP à partir de laquelle le service a été accédé.

• Journaux de transactions : identifient les produits ou services qu’un particulier a obtenus d’un fournisseur ou d’un tiers (achat d’espace de stockage dans le cloud, par exemple).

2- Comment les métadonnées sont-elles collectées ?

Les applications informatiques, appareils mobiles et systèmes informatiques connectés à Internet ou prenant en charge son fonctionnement collectent les métadonnées de manière automatique.

Par exemple, vous pouvez voir les pages Web que vous avez visitées si vous consultez l’historique de navigation sur le Web. Vous pouvez télécharger un historique de vos activités sur Facebook.

Vous pouvez utiliser une fonctionnalité Gmail appelée "Dernière activité du compte" qui inclut des métadonnées telles que la date, l’heure, le lieu et l’adresse à laquelle vous avez tenté de récupérer votre courrier électronique Gmail pour la dernière fois.

Les serveurs Web, les pare-feu, les commutateurs de réseau de données ou mobiles et de nombreuses applications pour appareils mobiles collectent également des métadonnées, à l’aide de cookies, de journalisation des événements, de collecte du trafic ou de rapports d’événements à un système de surveillance ou de surveillance.

Les systèmes de surveillance ou de collecte d’informations collectent également des métadonnées à diverses fins, allant de la gestion ou de l’optimisation des performances du réseau aux problèmes de services de dépannage, en passant par la surveillance pour lutter contre le terrorisme ou la collecte de renseignements pour enquêter sur des cybercrimes. [1]

Tous les systèmes d’informations utilisent des outils logiciels pour faciliter la collecte des métadonnées ainsi que pour leur compréhension et analyse (par exemple, EFK stack, Fluentd, Kabina).

Généralement, l’étendue et la profondeur de la collecte de métadonnées sont inconnues des individus et même, assez souvent (ce qui est plus alarmant), des entreprises.

3- Qu’en est-il de la sensibilité des métadonnées ?

Les métadonnées ne contiennent pas le message que vous essayez de communiquer à quelqu’un d’autre, mais plutôt des informations sur la source ou la destination de ce message. Les recherches universitaires démontrent qu’il est souvent assez simple de prendre une collection de métadonnées supposément anonymes et de la relier à une personne spécifique.

En d’autres termes, les métadonnées peuvent révéler qui nous sommes, qui nous savons, ce que nous faisons, ce qui nous préoccupe et ce que nous prévoyons de faire, ce qui est essentiellement le même spectre d’informations sensibles qui pourrait également être contenu dans le contenu d’une communication. En fait, les métadonnées peuvent même révéler des choses que nous n’avons jamais intentionnellement communiquées, même des informations relevant du domaine de l’article 9 du RGPD (opinion politique, origine raciale ou ethnique, religion, etc…).

En collectant et en analysant d’énormes quantités de données, les entreprises (par exemple à des fins de marketing numérique) et les acteurs gouvernementaux peuvent en extraire encore plus d’informations, y compris des faits que les individus choisissent consciemment de ne pas révéler et même des schémas qu’ils ne pensaient pas dévoiler.

La sensibilité des métadonnées est intensifiée par le volume disponible. De grands volumes de métadonnées peuvent permettre le profilage d’individus, en particulier en ce qui concerne l’emplacement, et nécessitent donc davantage de sauvegardes par rapport à de plus petites quantités ou différents types de métadonnées (exemple du Big Data ou mégadonnées).

Plus on connaît d’informations sur une personne, plus il est probable que ces informations pourront être utilisées pour identifier cette personne ou pour obtenir d’autres données la concernant. Lorsqu’elles sont agrégées, les informations permettent de produire plus d’informations, de sorte que l’anonymisation des données devient plus difficile.

Il est donc intéressant de lire dans les politiques de traitement des données personnelles publiées sur Internet par les entreprises des affirmations de ce type : « Nous ne vous demandons jamais de fournir des données personnelles relatives à votre origine raciale ou ethnique, à vos opinions politiques, à vos convictions religieuses ou philosophiques, à votre appartenance syndicale, à vos données génétiques ou à votre orientation sexuelle, moins que cela soit requis pour nous rendre à une obligation légale. »

Alors qu’en réalité il faudrait indiquer que : grâce aux métadonnées collectées par les systèmes d’informations que nous utilisons il est possible de déterminer votre origine raciale ou ethnique, vos opinions politiques, vos convictions religieuses ou philosophiques, votre appartenance syndicale, vos données génétiques ou votre orientation sexuelle. Nous nous interdisons (ainsi qu’à nos sous-traitants) d’utiliser les métadonnées dans ce but.

4- Les implications juridiques.

Dans le RGPD, les données personnelles sont définies de manière assez large pour englober la définition de métadonnée. La vision expansionniste de l’Union Européenne contraste avec la vision réductionniste des États-Unis en matière de données à caractère personnel. Du point de vue réductionniste, la tendance est de considérer les données personnelles comme étant uniquement celles qui ont été spécifiquement associées à une personne spécifique. Ce modèle ne protège que les données identifiées et laisse ainsi trop d’informations personnelles sans protection légale.

Dans l’approche expansionniste, il est indifférent que des informations aient déjà été associées à une personne donnée ou puissent l’être à l’avenir. Cette vue traite les données identifiées et identifiables comme équivalentes. Malgré l’importance du concept de données à caractère personnel dans la législation et la réglementation en matière de protection de la vie privée, les États-Unis ne sont pas encore parvenus à un consensus sur la manière de le définir aux niveaux national et fédéral [2]

Dans l’UE, les métadonnées pouvant être des données à caractère personnel, elles sont soumises à la protection du RGPD ce qui soulève plusieurs problèmes concernant :
• des informations sur leur collecte et la licéité de la collection ;
• le droit d’accès aux informations contenues dans les métadonnées et surtout la question du droit de savoir que les informations sont collectées (articles 15 à 20 du RGPD) ;
• droit d’opposition (article 21 du RGPD) ;
• stockage : la stocker dans de bonnes conditions, il est également nécessaire d’assurer sa disponibilité, son accessibilité, ce qu’il faut savoir, par qui, pour combien de temps et dans quelles conditions ;
• contrôle de son utilisation. Un tel usage peut être fait de bonne foi, par exemple dans la mise en œuvre de mécanismes de sécurité, mais également de mauvaise foi, les métadonnées étant détournées de leurs usages initiaux ou sujets à une falsification.

En ce qui concerne la licéité du traitement des métadonnées, le considérant 49 du RGPD invoque le concept d’intérêt légitime de l’article 6, paragraphe 1, point f) du RGPD. En lisant la déclaration de confidentialité des données publiée par des entreprises, nous remarquons que le concept d’intérêt légitime est cité, mais sans trop de détails, même s’il ne s’agit d’un concept difficile à appréhender. En fait, sa mise en œuvre justifie une analyse d’impact sur la vie privée. Invoquer l’intérêt légitime déclenche le droit d’opposition de l’article 21 du RGPD. Pas facile à appliquer lorsqu’il s’agit de métadonnées. Ce droit d’opposition ne bénéficie pas de l’exception prévue à l’article 11 du RGPD, qui est utile pour contourner les articles 15 à 20 du RGPD.

Le traitement des métadonnées peut également être justifié par les lois sur la conservation des métadonnées (par exemple, la directive sur la conservation des données (invalidée en avril 2014 par la CJUE), la directive sur la confidentialité des données qui sera remplacée par le règlement sur la confidentialité des données et la proposition de règlement de la Commission européenne pour les ordonnances de production et de conservation des preuves électroniques en matière pénale). Il s’agit de quelques exemples au niveau de l’UE, il faut y ajouter les lois nationales et les lois internationales. Autant dire que oui, les gouvernements disposent de nombreux outils juridiques pour obtenir des métadonnées. Pour une liste des législations veuillez consulter l’annexe 5.

Les métadonnées pouvant aussi révéler des catégories particulières de données à caractère personnel. L’’exception prévue à l’article 9, paragraphe 2, point f) du RGPD présente un intérêt particulier pour justifier la licéité du traitement. Ici aussi, une évaluation d’’impact sur la vie privée pourrait être nécessaire.

Il y a aussi la question de la rétention. Combien de temps une entreprise stockera les métadonnées, est-ce-que la période de rétention crée des opportunités pour utiliser les métadonnées à des fins différentes au fil du temps, est-ce-que les règles ou les lois de conservation des métadonnées appliquées au moment de la collecte resteront inchangées ?

Les politiques de traitement des données personnelles publiées par les entreprises ne sont pas explicites sur la conservation des métadonnées, elles invoquent généralement le concept "aussi longtemps que nécessaire" sans indiquer si les métadonnées sont éliminées une fois la période nécessaire écoulée.

L’article 5 e) de la RGPD stipule que les données à caractère personnel ne doivent pas être conservées plus longtemps que nécessaire pour les finalités pour lesquelles elles sont traitées. Il existe certaines circonstances dans lesquelles les données personnelles peuvent être stockées pendant de plus longues périodes (par exemple, des objectifs d’archivage dans l’intérêt public, des objectifs de recherche scientifique ou historique, des lois sur la conservation des métadonnées).

Le considérant 39 du RGPD indique que la période de conservation des données à caractère personnel devrait être limitée au strict minimum et que le responsable du traitement des données devrait fixer des délais pour la suppression des données. Les entreprises doivent donc s’assurer que les données personnelles sont éliminées en toute sécurité lorsqu’elles ne sont plus nécessaires. L’application d’une telle exigence aux métadonnées s’avère difficile et coûteuse.

Les métadonnées seront également traitées par un sous-traitant dont les services sont retenus par un responsable de traitement, par exemple dans le cas d’un service ‘SaaS –logicien en tant que service’. Et si le sous-traitant utilise un fournisseur de services cloud pour héberger ses applications, la collecte et l’utilisation de métadonnées deviennent encore plus complexes.

Face à une telle chaîne de distribution, mon conseil est de reconnaître le prestataire de services en tant que responsable du traitement des métadonnées que son système d’information collecte directement ou qui pourraient être directement transmises (à des fins de dépannage, par exemple) par l’entreprise qui achète le service.

En effet, la qualification de responsable du traitement de données est justifiée puisque le fournisseur du service définit lui-même, sans aucune instruction par son client, l’objet et les moyens du traitement des métadonnées (c’est-à-dire la définition des métadonnées dont il a besoin et des outils logiciels utilisés pour rassembler les métadonnées et analyser les métadonnées). La seule attente du client est que le service acheté respecte les conditions du contrat de niveau de service. Ainsi, le prestataire de services sera directement responsable en tant que responsable du traitement des métadonnées. À ce stade, conclure un accord de contrôleur de données pourrait être utile et protecteur.

Conclusion.

Nous sommes dans une société en temps réel. Les données sont maintenant une marchandise. Non seulement les entreprises (et les individus) attendent un accès immédiat à toutes les informations dont ils ont besoin, elles valorisent aussi les applications qui peuvent leur apporter de nouvelles informations (i.e., tirer des conclusions exploitables sur les données) et les conseiller sur l’utilisation de ces informations. Des informations précieuses résultent du traitement des métadonnées que nous trouvons dans le « Big Data ou mégadonnées ».

L’analyse des métadonnées par le biais de l’intelligence artificielle et de l’apprentissage automatique nous permet d’obtenir des prévisions très précises, au niveau individuel ou au niveau de l’entreprise. Cela est un avantage, mais en même temps un risque dont on peut s’inquiéter. Bientôt, l’utilisation de la technologie de décodage du cerveau (électroencéphalographie ou EEG) pourrait être la norme. Il suffit de citer la professeur Nita Farahany : "Nous avons besoin d’un droit à la liberté cognitive. Notre liberté de pensée, notre accès et notre contrôle sur nos cerveaux et notre vie privée mentale seront menacés."
[3]

Stan Lee (si vous êtes un fan de Marvel) a écrit : "un grand pouvoir implique une grande responsabilité." À mon avis, le RGPD est le meilleur outil juridique de protection de la vie privée aujourd’hui disponible, car il donne aux individus le droit de comprendre le mode de partage et d’utilisation des données et offre une réparation juridique. Mais sans compréhension des métadonnées et de leur traitement par les entreprises qui communiquent aux individus, à travers leur politique de protection des données, les informations sur leur traitement, ces avantages juridiques perdent leur raison d’être. En effet, avec la compréhension viennent la connaissance, le sens du bien et du mal, ce qui est juste ou faux, l’éthique et ce qui est contraire à l’éthique.