Publications

Comment conserver ou anonymiser les données ?

Publié le 28 septembre 2018

Nous avons vu précédemment l’ensemble des règles et des exceptions qui s’appliquaient sur la conservation même des données et notamment les cas où il n’était pas nécessaire de supprimer immédiatement les données à l’échéance de leur durée de conservation. Si vous n’avez pas lu l’épisode 1 de cette formidable saga en deux épisodes sur la conservation des données, vous pouvez le retrouver directement par ici [URL du 1^erarticle].

Dans cette seconde partie nous verrons comment conserver les données ou encore quelles techniques permettent d’anonymiser ou de pseudonymiser les données de façon plus ou moins efficace.

1. Comment conserver les données pendant la durée légale de conservation ?

Pendant cette durée, les données personnelles peuvent se trouver dans une base active ou encore sur des documents papier. Il n’y a pas de modalités particulières de conservation à part les mesures élémentaires de sécurité permettant de garantir le fameux triptyque : disponibilité, intégrité et confidentialité [1] et le fait que les données doivent être conservées « sous une forme permettant l’identification de la personne » [2]

Si les données conservées dans les bases actives peuvent être mises à disposition des services opérationnels d’une entité, il n’en reste pas moins que seules les personnes qui en ont l’intérêt puissent accéder auxdites données [3].

Ainsi lorsque la durée de conservation n’est pas échue, le Responsable de traitement (DPO interne ou agence RGPD externe) est dans une certaine mesure « libre » des modalités de conservation tant qu’il assure la sécurité des données.

2. Comment conserver les données après l’expiration de leur durée de conservation ?

Lorsque les données sont conservées à l’expiration de la durée qui leur a été fixée pour l’accomplissement de la finalité initiale, certaines modalités supplémentaires s’ajoutent.

En cas d’archivage intermédiaire (notion précisée dans le premier article consacré sur le sujet), le responsable de traitement a deux options :

– Soit il archive les données dans une base dédiée qui est distincte de la base active utilisé par les opérationnels. Cette base dispose d’accès restreints aux seules personnes qui en ont l’intérêt également (par exemple : le service juridique car en charge des contentieux).

– Soit les données sont laissées dans la base active mais des mesures de séparation logiques sont mises en œuvre afin de séparer les données actives et les données archivées. Dans ce cas, la nécessité de s’assurer que l’accès aux données n’est possible que pour les personnes qui ont un intérêt à les traiter (gestion des accès et des habilitations) est encore plus grand du fait que les opérationnels ont accès à cette base où se trouvent des données conservées à des seules fins probatoires.

– En ce qui concerne les archives définitives (données conservées dans « l’intérêt public »), il convient de conserver les données sur un support physique « indépendant, non accessible par les systèmes de production, n’autorisant qu’un accès distinct, ponctuel et précisément motivé auprès d’un service spécifique seul habilité à les consulter» [4]. Cela revient à isoler les données archivées des autres données couramment utilisées et de les rendre inaccessibles depuis le système d’information utilisé normalement par les services opérationnels. Par ailleurs, il est nécessaire pour accéder à ces archives de passer par un acteur du service public qui sera territorialement compétent et habilité à les gérer [5] [6]

S’il s’agit d’un archivage de documents papiers le processus est identique : isoler les données et documents archivés des données et documents utilisés au quotidien.

Attention :

si plusieurs types de données sont archivés et que plusieurs services au sein de l’entité ont vocation à y accéder, il convient de gérer ces accès. Par exemple : les données archivées pour se prémunir d’un contentieux avec d’anciens clients ou prestataires seront accessibles pour le service juridique mais pas pour les services RH. Il en va de même des contrats de travail des anciens salariés qui peuvent être archivés. En effet il n’y a pas de raison que le service juridique y ait accès s’il n’en a pas besoin pour accomplir ses missions

3. Quels sont les moyens permettant d’anonymiser et de pseudonymiser les données ?

Le G29 et la CNIL se sont prononcés sur diverses techniques d’anonymisation et de pseudonymisation en détaillant les risques de ré-identification relatifs à chacune d’elles.

Plusieurs grandes familles de procédés d’anonymisation [7] :

– La randomisation. Cette technique a pour but d’altérer la véracité des données afin de distendre le lien qu’il peut y avoir entre les données et l’individu concerné. Parmi les techniques de randomisation nous pouvons citer :

l’ajout de bruit qui a pour but de modifier des attributs afin de rendre les données moins précises tout en conservant leur distribution générale. Cette technique est intéressante lorsque les données peuvent avoir un impact négatif conséquent sur les personnes concernées ;
la technique de permutation qui permet de mélanger les attributs liés aux personnes de sorte que ces attributs soient faussement liés à des personnes différentes. Elle s’avère utile lorsqu’il est important de conserver la distribution des attributs dans l’ensemble des données ;

– La technique de généralisation qui consiste à généraliser les attributs des personnes concernées en modifiant leur échelle. Elle permet d’éviter facilement l’individualisation mais nécessite l’ajout de certaines mesures pour prévenir de la corrélation ou de l’inférence. Nous retrouvons ici :

l’agrégation et le k-anonymat qui empêchent l’isolement d’une personne en la regroupant avec au moins kautres individus. Par exemple : la précision d’une géolocalisation peut être élevée au niveau d’un pays plutôt que d’une ville. Cette technique empêche d’effectuer aisément une corrélation mais n’a que peu d’efficacité en termes d’attaque par inférence.
La l-diversité qui étend le procédé du k-anonymat pour éviter les attaques par inférence en veillant que chaque classe ait au moins lvaleurs différentes. Néanmoins cette technique ne diminue par le risque de corrélation par rapport au k-anonymat.

En ce qui concerne le chiffrement et les techniques de hashage, le G29 les assimiles à de la pseudonymisation et non à de l’anonymisation. Nous pouvons citer parmi ces procédés :

– La technique dite de chiffrement déterministe par clé avec suppression de la clé qui consiste à sélectionner un nombre aléatoire comme pseudonyme pour chaque attribut de la base données et à supprimer ensuite la table de correspondance. Cela permet de réduire le risque de corrélation entre les données mais ne rend pas impossible la possibilité de ré-exécuter la fonction en essayant chaque clef possible.

– La procédure de hachage par clé avec clé enregistrée qui consiste en une fonction de hachage particulière utilisant une clé secrète comme valeur supplémentaire en entrée. Ainsi sans la clef secrète il sera très compliqué mais non impossible de retrouver l’empreinte issue du hachage de la donnée et de la clé secrète associée (par ailleurs sur le hachage voir la notion de collision de hash).

* Le hachage utilise une fonction mathématique permettant de calculer l’empreinte d’une donnée (photographie, message etc…). En entrée se trouve une donnée quelle qu’elle soit et à la sortie se trouve une empreinte ressemblant à : 42fezj92kfeqc92aoith298. La longueur de l’empreinte sera la même malgré la différence de taille des données hachées. Ainsi, l’intégralité de l’œuvre Fondationd’Isaac Asimov et le message « La réponse est 42 » auront une empreinte d’égale longueur mais différente. Par ailleurs si une seule lettre du message haché est changée, l’empreinte en sortie sera complètement différente.

Il apparaît donc qu’il y a différentes façons de conserver des données, que ce soit dans des bases actives utiles aux opérationnels ou dans des archives intermédiaires afin de se prémunir d’un éventuel contentieux ou encore de façon anonymisée ou pseudonymisée pour dresser des statistiques par exemple. De même nous savons désormais qu’une fois la durée de conservation échue, il n’est pas toujours nécessaire de supprimer immédiatement les données mais que des alternatives permettent encore de s’en servir d’une certaine façon et pour certains objectifs précis et clairement délimité en droit.

Ainsi la ligne directrice en la matière n’est pas si manichéenne que cela. Nous ne sommes pas dans une logique conservation ou suppression mais dans une logique d’adapter la protection des personnes aux besoins des entités traitant des données personnelles. S’il est difficile de concilier les intérêts de tous et de satisfaire pleinement tout un chacun il est néanmoins possible de concilier l’intérêt des personnes de voir leurs données protéger et l’intérêt des entités à conserver temporairement certaines données personnelles après leur durée de conservation.

Nous vous suggérons également la lecture de cet article sur le droit à l’oubli

Pour aller plus loin

Télécharger notre Fiche Pratique » Le principe de minimisation » pour vous aider à y voir plus clair et avoir les bonnes méthodes pour agir.

Suivez-nous sur Linkedin, Twitter et Facebook

Sources

[1] Article 32 du Règlement (UE) 2016/679 relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données (RGPD).

[2] Article 11 du Règlement (UE) 2016/679 relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données (RGPD).

[3] Article 25.2 du Règlement (UE) 2016/679 relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données (RGPD).

[4] CNIL, Limiter la conservation des données, 28 mai 2018,

https://www.cnil.fr/fr/limiter-la-conservation-des-donnees

[5]CADA, L’accès aux documents administratifs – L’exercice du droit d’accès – Les modalités de communication,

http://www.cada.fr/l-acces-aux-documents-administratifs,1.html

[6] Article L211-1 et suivants du Code du patrimoine

[7] Avis 05/2014 sur les techniques d’anonymisation du Groupe de travail Article 29 sur la protection des données.