Publications

Concilier Big Data et RGPD

Publié le 13 juillet 2021
big data et données personnelles

L’ère numérique symbolise un changement imminent dans la société et la vie quotidienne de la population et, de manière incidente, un changement de tous les acteurs économiques. La révolution digitale a suscité l’émergence de nouvelles approches liées au développement numérique.

Dans ce contexte de transformation digitale, le Big Data fait partie des technologies émergentes pouvant générer des avantages compétitifs indéniables.

La CNIL définit le Big Data comme un « gigantesque volume de données numériques produites combiné aux capacités sans cesse accrues de stockage et à des outils d’analyse en temps réel de plus en plus sophistiqués ».

Les caractéristiques principales du Big Data sont :

  • Le volume: des gigantesques volumes de données ;
  • La vitesse: la nécessité d’une grande vitesse de traitement associée à une évolution rapide des données disponibles ;
  • La variété: des données non structurées variées, stockées par les médias sociaux (les réseaux sociaux, les blogs), échangées entre les personnes (par e-mail par exemple) ou organisées par les responsables de traitement sur des supports classiques (les bases de données internes).

La masse considérable de données nouvelles créées, stockées, transférées, traitées et finalement transformées en information nécessite de repenser les méthodes et les outils. Autrement dit, traiter une variété de données qui s’accroît continuellement, nécessite de repenser le rapport à ces données. Les schémas d’exploitation de données doivent être fondés sur des technologies et des méthodes adaptées. Si auparavant la création de données était le résultat d’une action voulue, de nos jours, elle existe sans intervention humaine. Les données ne caractérisent plus seulement les individus, les choses, les faits : elles existent en tant qu’entités, elles sont un produit immatériel.

Dans ce contexte d’utilisation massive de la donnée, celle-ci est perçue comme un actif fragile à protéger du fait de son caractère facilement altérable lors des nombreuses manipulations (qu’il s’agisse de transformations automatiques ou manuelles). La question qui se pose ainsi est celle de savoir dans quelle mesure s’articule le Big Data avec le RGPD et avec l’ensemble des principes visant la protection des données personnelles prévus par cette règlementation européenne.

Deux utilisations essentielles de cette technologie émergeante concernent d’une part, la justice prédictive, et d’autre part, les statistiques effectuées par les entreprises grâce au Big Data Analytics, un outil permettant la prise de décisions stratégiques pour améliorer l’efficience opérationnelle d’une entreprise.

Dans un premier temps, l’utilisation des systèmes de Big Data permet d’étendre considérablement les capacités des systèmes statistiques utilisés par les entreprises. Elle permet également une amélioration de la stratégie marketing de ces dernières, de la performance métier, de l’efficacité opérationnelle ainsi que l’optimisation des services proposés.

La « culture des données » en entreprises repose sur une approche quantitative de celles-ci.

Le cycle de vie d’une donnée peut être décrit en trois étapes : l’étape de gestion, l’étape de stockage et de centralisation et l’étape d’utilisation et de consommation.
Sont ainsi considérés comme relevant du Big Data Analytics toutes méthodes et outils statistiques massives, permettant de créer de la valeur. Nonobstant, les risques du fait de l’exploitation d’un volume large de données personnelles notamment via l’apprentissage automatique (« Machine Learning ») et l’intelligence artificielle peuvent conduire à une altération des données personnelles utilisées. A cet effet, les entreprises devront rester vigilantes quant à la véracité des données collectées, un tri adéquat des données personnelles manipulées étant nécessaire. Les risques qui peuvent résulter du fait de la collecte, du traitement, de l’exploitation d’un nombre significatif de données personnelles ne sont pas négligeables car le non-respect des principes comme la finalité du traitement des données, la proportionnalité et la pertinence, une durée de conservation limitée, le principe de sécurité et de confidentialité et notamment les droits des personnes peut donner lieu à des sanctions sévères (le montant des amendes peut aller jusqu’à 4% du chiffre d’affaires mondial ou 20 millions d’euros, comme le disposent les articles 83 et suivants du RGPD).

D’autres risques sont liés aux concepts de « monétisation » de la donnée ou de sa « marchandisation ». Les entreprises sont conscientes des bénéfices qu’elles peuvent tirer du fait de la collecte d’un nombre maximal de données possible sur leurs prospects ou clients, le but étant de mieux segmenter, cibler et comprendre les comportements de ces derniers. D’une part, elles peuvent procéder à une « monétisation de la donnée » : pour parvenir à les collecter et en échange des données personnelles des clients, les entreprises peuvent leur proposer des réductions ou des tarifs préférentiels. D’autre part, on parle d’une « marchandisation des données » : à cet effet, les entreprises prennent conscience que les données peuvent leur procurer un avantage concurrentiel sur leurs activités propres, mais également avoir une valeur marchande pour d’autres secteurs ou activités. De ce fait, les entreprises sont amenées à changer et à adapter leur « business models » pour pouvoir tirer les bénéfices adéquats.

Parmi les solutions permettant un encadrement de l’utilisation massive de données par les entreprises, on retrouve la cartographie du flux de données existantes, c’est-à-dire l’identification des données stratégiques et leur utilisation dans un but spécifique, correspondant aux objectifs de l’entreprise. A cet effet, une attention particulière devra être portée au principe de minimisation des données : les données doivent être « adéquates, pertinentes et limitées à ce qui est nécessaire au regard des finalités pour lesquelles elles sont traitées » (article 5 du RGPD). Ce principe devra être appliqué non seulement au moment de la collecte des données personnelles mais aussi tout au long de leur cycle de vie, l’objectif étant de recueillir uniquement les données nécessaires au regard des finalités prévues initialement par le responsable de traitement. Les entreprises doivent également mettre en place des processus de sauvegarde, de conservation et de sécurisation afin de fournir une protection suffisante pour les données essentielles à l’exercice de leurs activités.

Dans un second temps, l’utilisation du Big Data au service de la justice prédictive a fortement augmenté ces dernières années.

Le Big Data offre la possibilité d’une connaissance plus approfondie des populations ciblées et, le cas échéant, la construction de modèles prédictifs de comportements grâce au traitement d’un volume significatif de données structurées ou non structurées via des algorithmes d’analyses complexes.

Parmi les exemples d’outils permettant de prédire une décision de justice, on peut mentionner le logiciel Predictice, Predpol, HART ou Compas. Les risques majeurs de cette collecte et l’exploitation des données issues du Big Data reposent principalement sur : la légalité des traitements des données effectués, les droits des personnes, le détournement de ces données pour une finalité autre que celle initialement prévue et notamment le profilage.

Ce dernier risque qui peut en outre avoir des répercussions significatives en ce qui concerne le respect des droits des personnes, a suscité des nombreux débats à l’échelle internationale. Néanmoins, en Europe, un régime juridique encadrant les décisions algorithmiques, protecteur pour les justiciables, a été fixé par le RGPD. Dans son article 22, le RGPD prévoit que « la personne concernée a le droit de ne pas faire l’objet d’une décision fondée exclusivement sur un traitement automatisé, y compris le profilage, produisant des effets juridiques la concernant ou l’affectant de manière significative de façon similaire ».

Ainsi, cet article pose le principe de l’interdiction du recours à la seule justice prédictive pour toute décision de justice. Une exception est toutefois prévue : ce principe n’est pas applicable si la décision « est autorisée par le droit de l’Union ou le droit de l’Etat membre auquel le responsable du traitement est soumis et qui prévoit également des mesures appropriées pour la sauvegarde des droits et libertés et des intérêts légitimes de la personne concernée ».

Une attention particulière devra ainsi être portée aux droits des personnes dans le cadre de cette utilisation du Big Data au service de la justice prédictive. A cet effet, l’anonymisation est une technique utilisée afin de diminuer les risques potentiels du fait de l’utilisation massive des données personnelles.

L’anonymisation est, selon l’ancien groupe G29, « une technique appliquée aux données à caractère personnel afin d’empêcher irréversiblement leur identification ». Les principales techniques d’anonymisation sont, d’une part, la randomisation qui consiste à modifier les attributs dans un jeu de données pour qu’elles deviennent moins précises et, d’autre part, la généralisation, qui consiste à modifier les attributs des jeux de données, afin qu’ils soient communs à un ensemble de personnes. De plus, pour que l’anonymisation soit considérée efficace, 3 conditions devront être remplies :

  • L’impossibilité d’isoler un individu dans le jeu de données (individualisation)
  • L’impossibilité de relier entre eux des ensembles de données distincts concernant un même individu (corrélation)
  • L’impossibilité de déduire de manière quasi-certaine de nouvelles informations visant un individu (inférence).

Il est toutefois nécessaire de souligner que l’anonymisation n’est pas une technique dépourvue de risque. Le Comité européen de la protection des données (CEPD), dans un avis publié le 10 avril 2014, souligne l’existence de certaines limitations inhérentes à ces techniques d’anonymisation qui devront être envisagées de manière attentive par le responsable de traitement. Le conseil donné par le CEPD aux responsables de traitement afin d’éviter les risques inhérents à l’utilisation des techniques d’anonymisation est de « concevoir avec soin l’application d’une technique individuelle à la situation concernée et d’opter pour une combinaison de ces techniques en vue de renforcer la fiabilité du résultat ».

Quelles autres solutions pour une meilleure conciliation du Big Data et du RGPD ?

Une bonne gouvernance des données personnelles par les acteurs utilisant des solutions de Big Data est nécessaire. Dans cette perspective, l’adoption d’un ensemble de règles permettant le respect des principes prévus par le RGPD dès la conception « Privacy by Design » et par défaut « Privacy by Default » est exigée.

Tout traitement de données personnelles (la collecte, l’enregistrement, la modification, l’organisation, la conservation, la consultation, la communication) doit correspondre à une finalité précise, déterminée, et doit reposer sur l’une des six bases légales prévues par le RGPD.

La prise en compte en amont des règles issues du RGPD permettrait d’avoir un système de Big Data éthique, conforme aux exigences prévues par la règlementation européenne et respectueux des valeurs originelles du Big Data.

En conclusion, tous ces aspects devront être pris en compte et intégrés au sein d’outils et logiciels utilisés par les responsables de traitement. L’idée d’adopter des bonnes pratiques de gouvernance de données, tout en conservant le caractère innovant des solutions de Big Data, permettra le suivi d’une démarche effective de mise en conformité et le respect des principes éthiques en matière de protection de données et de sécurité de l’information.

– Georgiana HRISCU

Sources