Au sommaire de cet article...
- I. L’anonymisation des données personnelles.
- A. Définition et exigences de validité.
- B. Anonymisation insuffisante : l’Affaire JCDecaux.
- C. Les techniques d’anonymisation (avec des exemples d’avantages et d’inconvénients).
- II. La pseudonymisation des données personnelles.
- A. Définition et exigences.
- B. La pseudonymisation selon le RGPD.
- C. L’affaire Qwant : confusion entre pseudonymisation et anonymisation.
- E. Exemples de deux cas d’usage de la pseudonymisation.
I. L’anonymisation des données personnelles.
A. Définition et exigences de validité.
Bien que le RGPD ne fournisse pas de définition de l’anonymisation, la CNIL a pris l’initiative de la caractériser comme : "un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, en pratique, toute identification de la personne par quelque moyen que ce soit et de manière irréversible" [1].
Ainsi, des données personnelles seront considérées comme "anonymisées" uniquement si l’identification de leur titulaire devient totalement impossible et irréversible. Cela inclut non seulement l’incapacité d’identifier directement le titulaire des données, mais aussi l’impossibilité d’y parvenir indirectement, même en croisant ses données personnelles avec d’autres informations.
A ce titre, l’Avis 05/2014 du G29 (EDPB/CEPD) du 10 avril 2014 [2] apporte des précisions supplémentaires pour garantir la validité de l’anonymisation, spécifiant qu’une donnée ne doit plus être rattachée à son titulaire, même par des méthodes telles que :
- L’individualisation (ou singularisation) qui désigne la capacité d’extraire ou d’isoler des informations permettant d’identifier une personne dans un ensemble de données. Par exemple, dans une base de données de CV où seul le prénom et le nom ont été remplacés par un numéro, il serait encore possible de réidentifier un candidat en croisant des informations supplémentaires comme son adresse, sa formation ou ses expériences professionnelles. Dans ce cas, l’anonymisation fait défaut, car le candidat peut être réidentifié à partir de ses autres informations. Les données sont alors "pseudonymisées" et non anonymisées ;
- La corrélation (ou liabilité) qui désigne la capacité à relier entre elles au moins deux informations concernant la même personne. Par exemple, une base de données contenant des adresses ne peut être qualifiée d’anonyme si d’autres bases, qui relient ces mêmes adresses à des données permettant d’identifier une personne, permettent de la retrouver ;
- L’inférence désigne la capacité à déduire, avec un haut degré de probabilité (voire une quasi-certitude), des informations sur une personne (par exemple, son âge ou sa situation financière). Prenons l’exemple d’un ensemble de données anonymes sur la situation fiscale de plusieurs répondants à un questionnaire : si l’on sait que tous les hommes âgés de 20 à 25 ans ne sont pas imposables, on pourrait, en connaissant l’âge et le sexe d’un répondant spécifique, en déduire qu’il ne paie pas d’impôts, même si son statut fiscal n’est pas explicitement indiqué.
Dans la mesure où le procédé d’anonymisation ne parvient pas à résister aux trois critères précédemment mentionnés [3], les données ne pourront pas être considérées comme anonymes. Elles seront à tout le moins, qualifiées de pseudonymes, à condition que le responsable de traitement parvienne à démontrer que la réidentification est impossible par des moyens raisonnables. Cela signifie que les risques de réidentification doivent être suffisamment faibles (donc négligeables) ou que cette réidentification soit techniquement difficile.
L’évaluation des "moyens raisonnables" de réidentification s’effectue en tenant compte de plusieurs facteurs objectifs. Parmi ceux-ci, on retrouve la disponibilité des informations supplémentaires pour relier les données pseudonymisées avec leurs titulaires, mais aussi les ressources, le coût, le temps et les compétences techniques et technologiques requises pour réaliser cette réidentification [4].
Pour illustrer l’anonymisation, la CNIL a validé des techniques telles que le remplacement des données identifiantes (nom, prénom, numéro de téléphone, adresse électronique, adresse postale, coordonnées bancaires, etc.) par des caractères neutres et non identifiants, comme des séries de "X" [5], couramment utilisées pour garantir une anonymisation effective. En effet, la CNIL reconnaît que cette méthode "Constitue une mesure de nature à ne plus permettre la réidentification des personnes".
B. Anonymisation insuffisante : l’Affaire JCDecaux.
L’arrêt du Conseil d’État du 8 février 2017 (n° 393714) [6] illustre clairement l’exigence d’une anonymisation irréversible dans le contexte d’un traitement de données personnelles.
Dans cette affaire, la société JCDecaux envisageait l’installation de boîtiers Wi-Fi pour collecter les adresses MAC des smartphones de piétons, en affirmant que ces données personnelles étaient anonymisées grâce à des techniques de "hachage" et de "salage".
Cependant, le Conseil d’État a confirmé la position de la CNIL en rejetant la requête de JCDecaux, qui demandait l’annulation pour excès de pouvoir, la délibération de la CNIL n°2015-255. Cette délibération refusait l’octroi à JCDecaux d’une autorisation de mettre en œuvre un traitement visant à "tester une méthodologie d’estimation quantitative des flux des piétons" sur la dalle de la Défense à Paris.
La CNIL estimait que les méthodes utilisées étaient insuffisantes, car il était encore possible de réidentifier les appareils et par conséquent leurs utilisateurs.
C. Les techniques d’anonymisation (avec des exemples d’avantages et d’inconvénients).
Randomisation. Introduire de l’incertitude pour affaiblir le lien entre les données et le titulaire de la donnée. |
Généralisation. Rendre les données moins précises en les regroupant dans des catégories plus larges |
Ajout de bruit. Modification des données en y ajoutant des erreurs contrôlées. Ex : Une personne a 35 ans, un bruit aléatoire pourrait être ajouté pour donner un âge de 34 ou 36 ans. De cette façon, l’information initiale reste proche de la réalité mais devient moins précise, rendant l’identification plus difficile tout en permettant des analyses statistiques globales. ✔️ Protège contre les attaques en ajoutant de l’incertitude. ❌ Les données peuvent devenir moins fiables si le bruit est trop élevé |
Agrégation et k-anonymat. Regroupement des personnes dans des classes où chaque classe contient au moins X personnes avec les mêmes caractéristiques. Ex : Si un groupe de 20 salariés a des âges compris entre 20 et 25 ans, l’âge de tous ces salariés peut être remplacé par la valeur 23, garantissant que 20 personnes partagent la même information. ✔️ Lorsque les mêmes valeurs (ex : âge) sont partagées par X personnes, il ne devrait plus être possible d’identifier une personne au sein de ce groupe de X utilisateurs. ❌ Peut échouer si X est trop petit ou si les attributs sont mal choisis. |
Permutation. Échange des valeurs entre les personnes tout en conservant la distribution des données dans son ensemble. Ex : dans la base de données, l’âge du client A est échangé avec celui du client W et l’âge du client H est échangé avec celui de L. ✔️Permet de préserver la distribution des données tout en effaçant les liens avec les personnes (les âges sont conservés, mais sont simplement échangés dans le jeu de données en étant affectés à d’autres personnes) ❌Ne permet pas de garder les corrélations entre les valeurs et les personnes (Le client A a l’âge du client W), ce qui rend impossible certaines analyses statistiques. |
l-diversité/t-proximité. Extension du k-anonymat pour garantir une diversité de valeurs dans chaque groupe (l-diversité). La t-proximité va plus loin en permettant de préserver la distribution d’origine des données dans chaque groupe, afin que les résultats anonymisés restent réalistes. Ex : dans une base de données de patients, chaque groupe de personnes ayant des caractéristiques similaires (âge et sexe) doit avoir au moins 3 maladies différentes (l-diversité) et la répartition de ces maladies dans chaque groupe doit être similaire à celle de la population totale (t-proximité). ✔️ Protège contre les attaques par inférence en augmentant la diversité des groupes ou en maintenant la similitude avec les données initiales. ❌Peut laisser des failles si les données sont mal réparties ou mal regroupées. |
Confidentialité différentielle. Ajout de bruit sur les résultats d’une base de données pour préserver la confidentialité. Ex : une entreprise souhaitant publier des statistiques sur les salaires de ses salariés pourrait ajouter un bruit aléatoire aux chiffres (par exemple, modifier chaque salaire de + ou - 5%) pour éviter que l’on identifie un salarié, tout en permettant d’observer des tendances générales. ✔️ Protéger la confidentialité tout en permettant des analyses statistiques. ❌ Ne protège pas contre toutes les attaques si les données originales sont conservées. |
A juste titre, la CNIL rappelle que, compte tenu de l’évolution constante des techniques d’anonymisation et de réidentification, il est essentiel de garantir, sur le long terme, l’anonymat des données personnelles. Il s’agit de prendre en compte les nouvelles avancées techniques disponibles ainsi que les autres sources de données susceptibles de permettre la réidentification. La CNIL souligne qu’aucune méthode n’est, à ce jour, totalement infaillible. L’anonymat des données doit également être garanties face aux défis que représente la montée en puissance de l’Intelligence artificielle.
II. La pseudonymisation des données personnelles.
A. Définition et exigences.
L’article 4(5) du RGPD introduit le concept de "pseudonymisation" comme étant :
"le traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable ;"
Contrairement à l’anonymisation, la pseudonymisation consiste à remplacer les données identifiantes (comme le nom, prénom, numéro de téléphone, adresse électronique, etc.) par des données non identifiantes telles qu’un alias ou numéro séquentiel. Par exemple, il est courant de remplacer le nom et le prénom d’un étudiant par un numéro étudiant unique.
Il est important de souligner que, contrairement à l’anonymisation, la pseudonymisation est un procédé réversible. En effet, il est tout à fait possible de réidentifier une personne en utilisant, par exemple, une clé de déchiffrement ou en croisant les données pseudonymisées avec d’autres informations accessibles.
B. La pseudonymisation selon le RGPD.
Le RGPD considère les données pseudonymisées comme des données personnelles, car il reste possible de remonter à l’identité d’une personne en les croisant avec d’autres informations. À ce titre, elles restent régies par les dispositions du RGPD. A l’inverse, les données anonymisées (qui ne sont plus qualifiées de données personnelles) échappent au champ d’application du RGPD, car elles ne permettent plus d’identifier une personne de quelque manière que ce soit.
Sur son utilisation, la pseudonymisation permet de réduire et limiter les risques de réidentification, tout en facilitant certains traitements de données personnelles, sans compromettre la confidentialité des personnes concernées. Il est préférable d’avoir recours à ce procédé dans le cadre d’un traitement de données à des fins de recherche scientifique, lorsqu’il est essentiel de disposer d’informations précises au niveau individuel, sans toutefois avoir besoin des données directement identifiantes pour réaliser cette recherche.
Autre point majeur, l’article 4(5) du RGPD précise que la séparation des données pseudonymisées et des informations supplémentaires permettant de relier les données à leurs titulaires est nécessaire pour éviter toute réidentification. En l’absence d’une telle séparation, la pseudonymisation perdrait de son utilité et de son efficacité, ce qui mettrait en péril les données pseudonymisées [7].
C. L’affaire Qwant : confusion entre pseudonymisation et anonymisation.
L’affaire Qwant [8] a mis en lumière l’importance de distinguer clairement les données anonymisées et pseudonymisées.
En effet, en 2019, la CNIL a mené une enquête auprès du moteur de recherche Qwant, qui affirmait anonymiser les données de ses utilisateurs. Pourtant, suite à son enquête, la CNIL a révélé que les données envoyées au partenaire Microsoft, étaient en réalité pseudonymisées et non anonymisées, contrairement à ce qui était indiqué dans la politique de confidentialité de Qwant à l’époque. La CNIL, estimant que le moteur de recherche traitait des données personnelles pseudonymisées, décidait alors de lui adressait un rappel à ses obligations légales, en précisant que la pseudonymisation ne suffisait pas à exclure ces données du champ d’application du RGPD.
"Dans sa décision, la présidente de la CNIL a rappelé que, malgré les fortes précautions prises en 2019 pour éviter la ré-identification des personnes, le jeu de données transmis à MICROSOFT n’était pas anonymisé mais seulement pseudonymisé."
D. Exemples de techniques de pseudonymisation [9].
- Compteur : remplacer des données identifiantes (comme le nom ou la date de naissance) par un numéro généré séquentiellement, ce qui garantit qu’il n’y a pas de répétition. Son usage est simple et adapté aux petites bases de données. Il reste difficile à mettre en œuvre pour de grandes bases de données complexes car une table de correspondance est nécessaire.
Prénom | Nom | Date de naissance | Pseudonyme |
---|---|---|---|
Nicolas | Durand | 06/01/1978 | 113 |
Isabelle | Martin | 25/05/1988 | 114 |
- Générateur de nombres aléatoires : créer des pseudonymes de manière aléatoire, sans lien direct avec les données initiales, ce qui les rend difficiles à prédire ou à réutiliser
Prénom | Nom | Date de naissance | Pseudonyme |
---|---|---|---|
Nicolas | Durand | 06/01/1978 | 75721 |
Isabelle | Martin | 25/05/1988 | 865 |
- Chiffrement à clé secrète : les données sont chiffrées avec une clé secrète, rendant les données illisibles sans la clé. Le processus est réversible si la clé est connue.
Prénom | Nom | Date de naissance | Pseudonyme |
---|---|---|---|
Nicolas | Durand | 06/01/1978 | e29843178f52fb5779862748f06f2022b3c7c920a36928eac6c25cbd7e562185 |
Isabelle | Martin | 25/05/1988 | 806e37f131008057776fad53ea1fb72d479e7e0e4435539d03595a0ec5e2c435 |
- Substitution, généralisation et floutage : remplacer les données identifiantes par des informations fictives ou modifiées. Ces techniques sont souvent utilisées pour rendre les données moins spécifiques tout en conservant leur utilité pour certaines analyses.
Prénom | Nom | Date de naissance | Pseudonyme |
---|---|---|---|
Nicolas | Durand | 06/01/1978 | "Jean Dupont" |
Isabelle | Martin | 25/05/1988 | "Claire Lefevre" |
Fonction de hachage : appliquer une fonction de hachage sur les données pour générer une valeur fixe qui ne peut pas être inversée. Cette technique rend les données irrécupérables dans leur forme originale sans un effort considérable.
E. Exemples de deux cas d’usage de la pseudonymisation.
- Imaginons qu’un chercheur mène une étude sur les allocations logement et collabore avec une caisse d’allocations familiales (CAF), qui possède des données sur les demandeurs (noms, dates de naissance, adresses et montants reçus). Pour protéger la confidentialité, les données sont pseudonymisées : les noms et dates de naissance sont remplacés par un identifiant unique et les adresses complètes sont remplacées par les seules communes. Le chercheur peut analyser les données sans connaître l’identité des bénéficiaires [10].
- De même, dans le cadre d’une recherche en santé publique, un chercheur accède à un entrepôt de données de santé (EDS) contenant des données sensibles relatives à la santé. Afin de respecter pleinement les obligations du RGPD, les données sont pseudonymisées, ce qui permet au chercheur de réaliser ses travaux sans avoir connaissance de l’identité des personnes, tout en garantissant une utilisation sécurisée des données à des fins de recherche.
En définitive, ne pas comprendre ces concepts expose à des risques, comme des sanctions pour non-conformité et des violations potentielles de la confidentialité, de l’intégrité et de la disponibilité des données. En résumé, pour mieux saisir la différence, imaginez donc que l’anonymisation soit comme réduire une donnée en poussière, effaçant tout lien avec son titulaire. Tandis que la pseudonymisation, reviendrait à cacher cette donnée dans un coffre, uniquement accessible à ceux qui en détiennent la clé.