Le « BIG DATA », aussi connu sous les appellations de « mégadonnées » ou « données massives » est devenu avec le développement des nouvelles technologies et surtout l’avènement d’internet, un outil incontournable du traitement de données numérisées. En l’espace d’une vingtaine d’années, la quantité de données numériques a considérablement augmenté (textes, photographies, vidéos, etc.), faisant du BIG DATA un eldorado du stockage informatique de données accessibles par le monde entier.
Longtemps associé aux « trois V » que sont « Volume », « Vélocité et « Variété », le BIG DATA s’est vu ajouter au fil du temps de nouvelles caractéristiques. Les termes « Valeur », « Véracité » et « Variabilité » permettent également de démontrer le caractère diversifié des données accumulées ainsi que le fait qu’il devient possible de tirer profit de ces données.
Aucun secteur n’échappe aux traitements de données issus du BIG DATA. Même le domaine de la santé, naturellement réfractaire en raison de sa sensibilité, prend aussi part à cet outil devenu incontournable à notre époque. Les données de santé traitées à cette occasion font partie de ce qu’appelle le Règlement Général sur la Protection des Données (RGPD) les « catégories particulières de données », aussi désignées plus communément comme des données dites « sensibles ». Benoît Thieulin, ancien Président du Conseil National du Numérique, évoque l’introduction du BIG DATA dans le secteur de la santé comme un « cycle d’innovations sans précédent » et assimile cette révolution au « saut vertigineux de la découverte des antibiotiques ».
Pour quelles raisons le BIG DATA est-il devenu un outil incontournable dans le traitement des données de santé ? Quels dispositifs ont été mis en place dans le cadre de ces traitements de données dites « sensibles » ? Est-ce réellement sans risque pour les personnes concernées ?
Qui ne s’est jamais rendu sur un site internet pour savoir s’il était en bonne santé ou si ses symptômes étaient préoccupants ? A cela, je répondrai bien entendu personne. Bien que cette technique soit discutable, elle met en avant les sources inimaginables d’informations (articles, études ou recherches accessibles sur la toile), actualisées en temps réel, qui sont devenues accessibles. Ces mêmes informations peuvent ensuite être combinées à d’autres bases de données numériques permettant de réaliser d’autres enquêtes et ainsi de suite. Cela a laissé aux scientifiques du monde entier une possibilité considérable de gagner du temps dans le cadre de leurs recherches.
Avec le BIG DATA, l’information semble plus accessible et plus rapide. C’est notamment ce qui a amené beaucoup d’entreprises à préférer l’hébergement en cloud uniquement, un système permettant également de réduire les coûts tout en ayant un service en principe plus sécurisé (tel que la maintenance réalisée par un sous-traitant spécialisé).
Comme nous venons de l’observer, le BIG DATA est devenu ces dernières années, avec le développement de nouvelles technologies, une mine d’or en termes d’informations disponibles. Outre la mise à disposition quasiment instantanée d’une grande quantité de données de santé, en quoi ces nouvelles techniques de traitements sont-elles bénéfiques pour le secteur de la santé et pour les personnes concernées de manière plus globale ?
L’agrégation de données numérisées permet au BIG DATA d’œuvrer pour la continuité des soins et la prise en charge des patients quoi qu’il arrive et deviennent de ce fait des sources de médecine préventive. L’intelligence artificielle est notamment une exploitation du BIG DATA qui a fait son apparition dans le domaine de la santé. Cette nouvelle manière de traiter des données de santé vient s’adapter aux données elles-mêmes en établissant des résultats, non pas obtenus grâce à l’homme, mais aux cas déjà observés et étudiés grâces à des algorithmes. C’est notamment ce que nous pouvons observer avec l’émergence de dispositifs connectés, souvent élaborés par des structures ne faisant pas partie du monde de la santé. Certains objets sont aujourd’hui par exemple capables d’analyser nos fréquences cardiaques et peuvent donc parfois devenir des éléments déclencheurs d’examens médicaux plus poussés, malgré les avis de non-responsabilité des fabricants. En 2018, une jeune américaine s’était notamment rendue dans un hôpital pour être prise en charge par des médecins, suite aux alertes émises par sa montre connectée, lui décelant une maladie rénale dont elle ne connaissait pas l’existence.
L’association des données provenant de ce type d’objets connectés issus des nouvelles technologies pourrait à l’avenir nous permettre de mieux comprendre certains points médicaux encore méconnus comme les causes des alertes. Le BIG DATA représente cette multitude de données qui assemblées entre elles peuvent à terme améliorer la prise en charge des personnes.
Bien que le BIG DATA ait mis en lumière de nouvelles techniques de traitement de données pouvant être bénéfiques aussi bien pour les personnes concernées par ces traitements que pour les scientifiques, ces techniques sont-elles suffisamment encadrées ? La réglementation en matière de protection des données s’est-elle adaptée à ces nouvelles technologies ?
Depuis l’entrée en application du RGPD, le Responsable de traitement n’est plus le seul à être responsable en cas de non-conformité à la réglementation en matière de protection des données. Le sous-traitant, définit par la CNIL comme étant « la personne physique ou morale (entreprise ou organisme public) qui traite des données pour le compte d’un autre organisme (« le responsable de traitement »), dans le cadre d’un service ou d’une prestation» s’est vu attribuer d’autres responsabilités. En matière de traitements de données de santé, la conformité des sous-traitants à la réglementation en matière de protection des données est primordiale.
Cette nouvelle responsabilisation des sous-traitants a permis à un certain nombre de structures traitant des données de santé de prendre conscience de la nécessité de protéger davantage ce type de données. En effet, même si le fait, pour un éventuel futur sous-traitant, de démontrer sa conformité à un Responsable de traitement est une obligation du règlement européen, la pratique tend tout de même à démontrer que certains acteurs ne respectent pas toujours cette injonction afin de satisfaire des enjeux commerciaux perçus comme plus importants. Les acteurs du secteur de la santé apparaissent davantage sensibilisés en raison du statut particulier des données qu’ils traitent.
Également, l’encadrement strict par la CNIL (référentiel à respecter ou demande d’autorisation) dans le cadre des entrepôts de données de santé (bases de données ayant pour but d’être utilisées notamment à l’occasion de recherches, d’études ou d’évaluation dans le secteur de la santé), démontre une volonté de renforcer l’obligation d’attester de la conformité de son sous-traitant et de respecter le principe du privacy by design (imposant aux structures de se préoccuper de la protection des données, et notamment de leur sécurité, en amont des nouveaux projets).
Dans cette thématique, vous pouvez consulter notre article sur L’encadrement spécifique des méthodologies de référence pour le secteur médicale, notamment la MR001
Comme nous l’avons vu précédemment, les contraintes juridiques imposées en matière de traitements de données de santé peuvent donc être notamment bénéfiques pour les responsables de traitements qui voient la responsabilité de leurs sous-traitants s’accroitre. D’un autre côté, les sous-traitants peuvent y voir une manière d’être plus compétitifs et de se démarquer des concurrents en étant toujours plus actifs sur le sujet. Il faut donc voire ici un enjeu commercial à long terme bien présent. Mais, bien plus qu’une valeur ajoutée d’un point de vue commercial, une meilleure prise en compte de la protection des données de santé est surtout un atout vis-à-vis des personnes concernées à l’heure du BIG DATA. En effet, en matière de données de santé, la confiance des personnes qui confient leurs données est primordiale. En cas de violation de données, une personne ne subira pas les mêmes impacts en cas de perte, altération ou divulgation non autorisée de données de santé la concernant comme un nom, prénom, numéro de téléphone ou une adresse e-mail que lorsqu’il s’agira d’un scanner, d’une IRM, d’une ordonnance prescrivant un traitement contre le cancer ou encore de résultats d’analyses attestant d’une grossesse encore non dévoilée.
L’obligation de transparence imposée par le RGPD ou encore la possibilité de recourir au consentement comme exception dans le cadre d’un traitement de données de santé montre que l’accent est mis sur la personne concernée et au pouvoir qu’elle doit conserver sur ses données personnelles.
De même, l’obligation d’avoir un délégué à la protection des données (dpd) ou Data Protection Officer (DPO) pour les établissements dont les activités de base les amènent à traiter à grande échelle des données dites « sensibles » est également un moyen de renforcer la confiance des personnes concernées à l’heure où un grand nombre de structures ne disposent pas au moins d’un référent RGPD. Ces établissements accueillant généralement des personnes malades, affaiblies ou en situation de handicap rassurent ainsi les personnes concernées quant aux traitements qui sont réalisés avec leurs données de santé et par conséquent leurs données personnelles de manière générale.
Enfin, l’information préalable des personnes, imposée par l’article 13 du RGPD, permet d’éclairer les individus sur l’ensemble des traitements qui seront réalisés avec leurs données personnelles. Ceci se révèle être un enjeu très important à l’ère du BIG DATA, qui peut être une notion floue pour certains, ainsi qu’une manière d’améliorer les services et usages.
Malgré un encadrement juridique des plus stricts lorsqu’il s’agit du traitement de données de santé, le respect de certaines obligations apparait comme beaucoup plus incertain.
Certaines structures, qui ne sont généralement pas des acteurs traditionnels du monde de la santé, perçoivent dans le BIG DATA un moyen de récupérer et réutiliser ces données à des fins commerciales et marketing. L’association d’informations issues du BIG DATA, comme celles récupérées par les cookies déposés sur vos terminaux, peuvent par exemple mettre en évidence vos résultats de recherches internet ou vos consultations de plateformes médicales et donc devenir des informations économiquement attractives pour de nombreux organismes. Combinées entre elles, ces informations sont à l’origine de profilage des personnes et peuvent servir notamment à diffuser de la publicité ciblée sur la base des profils médicaux créés. Cette mise en évidence de profil peut être assimilée à une forme de « tracking » numérique. Malheureusement, beaucoup de structures ne respectent pas les droits des personnes concernées comme leur consentement quant au transfert de leurs données à d’autres entités. Cependant, l’actualité récente de la Commission Nationale de l’Informatique et des Libertés (CNIL) en France mais également dans d’autres pays de l’Union Européenne, au sujet de l’interdiction des transferts de données personnelles aux Etats-Unis en matière de cookies lorsque des garanties appropriées ne sont pas correctement mises en place, tend à montrer que la protection des données n’a pas dit son dernier mot quant à la réutilisation d’informations relatives à la vie privée des personnes, issues du BIG DATA.
Les interconnexions entre bases de données ne doivent pas toujours être interprétées de manière négative. En effet, il sera notamment possible grâce à des dispositifs statistiques et algorithmiques de travailler sur la découverte de nouveaux traitements ou de la détection de maladies à des stades précoces. Il s’agit toutefois de mécanismes qui doivent être encadrés afin d’être respectueux de la vie privée des personnes concernées ou que ces dernières soient pleinement conscientes des traitements qui pourraient être réalisés sur leurs données.
Cela nous amène à une autre question qui est celle de l’anonymisation des donnée personnelles à l’ère du BIG DATA. Peut-on en effet réellement parler d’anonymisation des données alors même que les interconnexions de bases de données numériques sont devenues quasiment automatiques ?
Dans le secteur de la santé, le risque est grand de considérer que le secret médical permet de s’exempter de la réglementation en matière de protection des données personnelles. Or, aucune structure ne peut s’affranchir d’une telle réglementation. Certains professionnels de santé pensent également parfois ne pas avoir à respecter cette règlementation en utilisant des techniques de pseudonymisation qu’elles pensent être des techniques d’anonymisation. La réelle anonymisation des données est en effet généralement une notion incomprise. La pseudonymisation maintient une identification indirecte des personnes concernées, par exemple grâce à l’utilisation de codes pseudonymes, quand l’anonymisation supprime de manière irréversible toute identification (directe ou indirecte). A l’heure actuelle, beaucoup de structures médicales pensent avoir anonymisé les données personnelles de leurs patients en changeant les premières lettres de leurs noms de familles ou en les nommant seulement avec leurs initiales, ce qui correspond à de la pseudonymisation.
Le RGPD ne peut s’appliquer sur une donnée anonyme puisque cette dernière n’a plus la capacité d’identifier une personne physique. Cependant, il est en réalité quasiment impossible de garantir totalement la non réidentification des personnes à l’ère du BIG DATA. Le croisement des données massives qu’il génère est devenu un réel frein à l’anonymisation des données. La simple évocation sur la toile d’un individu porteur d’une maladie rare dans une zone plus ou moins précise sur un site internet pourrait aboutir à son identification en comparant les données récupérées par différentes sources (statistiques, géolocalisations, etc.). C’est notamment ce qu’ont pu observer Zang J., Dummit K., Graves J., Lisker P. et Sweeney L., dans leur article « Qui sait quoi sur moi ?». Cette étude a mis en lumière la réidentification d’individus grâce à la collecte de données obtenues par le biais d’applications populaires, gratuites ou payantes. Des informations pouvant paraître anodines telles qu’un nom, prénom, sexe, combinées à d’autres informations récupérées par d’autres applications comme la date de naissance, connectées elles aussi à des informations révélant leurs historiques de recherche ou leur localisation plus ou moins précise pouvaient permettre de les réidentifier.
L’absence d’anonymisation replace ainsi les données dans le périmètre de la réglementation. La célèbre maxime d’Antoine de Lavoisier, « rien ne se perd, tout se transforme » n’est plus réservée au cycle de la vie mais également au cycle de la donnée.
Un autre phénomène à prendre en compte en matière de « mégadonnées » est le nombre grandissant de cyberattaques touchant le secteur de la santé telles que l’hameçonnage (« phishing ») ou le rançonnage (« ransomware ») qu’il s’agisse d’acteurs privés ou publics. En avril 2022, la CNIL avait notamment sanctionné un éditeur de logiciel d’une amende de 1,5 million d’euros pour de nombreux manquements quant à la sécurité des données traitées, ayant conduit à la fuite de données de santé d’environ 500 000 personnes. Les structures traitant des données de santé sont en effet devenues des cibles privilégiées pour ce type de violations de données du fait des données qu’elles traitent et de leur caractère « sensible ». Une violation de données pourrait avoir des conséquences extrêmement néfastes pour les personnes concernées comme le refus d’un prêt à la banque ou pourrait dans des cas plus graves pourrait conduire au décès de la personne si cela touchait par exemple un centre hospitalier. Il est ici nécessaire de rappeler l’importance de mettre en place des mesures de sécurité (techniques et organisationnelles) pour garantir la protection des données traitées. Malheureusement, les problématiques de financement dont souffrent certains organismes accroissent ce risque de subir une violation de données. A noter, les violations de données peuvent également être le fait d’un acte totalement involontaire interne ou externe.
Les personnes concernées ne sont pas les seules impliquées par ces violations de données. Les structures elles-mêmes peuvent subir des conséquences néfastes comme une atteinte à leur image en cas de notification obligatoire de la violation de données par l’organisme ou lorsque l’autorité de contrôle décide de publier la condamnation. Maintenir la confiance des individus dans les établissements traitant leurs données de santé deviendra alors un enjeu très important pour ces structures.
Bien qu’étant un outil très intéressant d’un point de vue personnel, scientifique ou commercial, l’exploitation du BIG DATA doit être encadrée et protégée de manière stricte. Comme nous venons de le voir, notamment au travers de la difficulté à construire un dispositif d’anonymisation garantie, le respect de la réglementation relative à la protection des données personnelles reste un sujet central dans l’essor et l’avenir du BIG DATA. Le rôle du législateur et des autorités de contrôle sera à ce titre fondamental dans l’avenir, afin de garantir l’essor d’un BIG DATA respectueux des individus dont les données sont traitées.
Cécile de Biaisi