Publications

La valorisation des données par l’intelligence artificielle

Publié le 17 novembre 2021

Cette affirmation est déjà largement connue aujourd’hui, et ne cesse de se renforcer : les données sont, et seront toujours plus demain, un levier essentiel de transformation numérique pour les entreprises.  La masse de données disponible ne cesse de croitre. Réseaux sociaux, blogs, sites internet, applications, navigateurs, toutes ces plateformes et outils donnent lieu à la collecte journalière d’une énorme masse de données, dont l’usage est souvent mal maitrisé ou peu utilisé par les entreprises. 

Outre la collecte de données brute réalisée chaque jour par ces plateformes et outils, la question de la réutilisation et de la valorisation de ces données se pose pour les entreprises. On entend par valorisation de la donnée tout processus qui permet de créer de la valeur à partir de données collectées et/ou traitées, afin d’en tirer un avantage, le plus souvent économique. La donnée est ainsi au cœur de nouvelles problématiques concurrentielles pour les entreprises, notamment la transformation de l’entreprise par le numérique. La donnée est une ressource économique et concurrentielle non négligeable, dans une société numérique, qui permet d’anticiper et de répondre à des menaces, prédire des comportements ou tirer profit d’opportunités commerciales.

La donnée est ainsi un actif stratégique pour les entreprises, mais qui est souvent mal maitrisé. L’avènement des nouvelles technologies, telles que l’intelligence artificielle, permettent aujourd’hui la valorisation de ces mêmes données par croisement, apprentissage ou prédiction. L’on a vu ainsi naitre le terme « d’économie de la donnée », qui consiste à construire de grands datasets afin d’extraire de la connaissance valorisable sur la base de données collectées, et ce à l’aide de méthodes d’apprentissages automatisées : le machine learning ou le deep learning. L’intelligence artificielle est ainsi considérée aujourd’hui comme le troisième volet de l’économie numérique, au cœur de l’attention des entreprises et des juristes numérique.

Cependant, depuis 2018, la question de la donnée fait inéluctablement écho au Règlement Général sur la protection des données à caractère personnel (ci-après « RGPD »). Si l’intelligence artificielle permet de tirer de la donnée une nouvelle valeur économique, et permettre ainsi un avantage concurrentiel parfois conséquent, ce processus ne doit pas se faire au détriment de l’éthique et de la conformité règlementaire.

Aussi la question se pose des limites de la valorisation des données, et de son essentielle conformité à l’éthique. Comment concilier valorisation et conformité règlementaire ?

1. La donnée, un actif aujourd’hui trop peu valorisé.

Toute entreprise, quelle que soit sa taille ou son secteur d’activité, est amenée aujourd’hui à collecter ou traiter de la donnée (que cette dernière présente un caractère personnel au sens du RGPD, ou qu’elle soit brute).

1) La donnée, actif clé dans un monde en pleine digitalisation.

Notre société et plus largement notre monde se digitalise à grande vitesse : ne se sont écoulés que 32 ans depuis la création d’Internet, réseau d’information interconnecté partout dans le monde. Rien qu’en 2014, Internet comptait déjà près de 3 milliards d’utilisateurs et près de 920 millions de sites web. Aujourd’hui, en quelques chiffres, le réseau mondial accueil près de 5 milliards d’utilisateurs dans le monde, qui pour près de 60% d’entre eux utilisent chaque jour au moins un réseau social. Le flux de données généré par toutes ces interactions est immense, et représente le nouvel or du 21ème siècle. Aussi, la donnée semble être une source intarissable, à laquelle de nombreuses entreprises viennent abreuver leur modèle économique ou renforcer leur position sur un secteur d’activité. C’est en ce sens que la donnée peut être considérée comme un actif clé, car elle permet, lorsqu’elle est bien utilisée (et donc valorisée) un levier concurrentiel non négligeable.  

2) Des entreprises encore trop peu impliquées dans la valorisation de leurs données.

Si la collecte de données est aujourd’hui chose commune, valoriser ces données n’est pas considérée comme chose facile par de nombreuses entreprises pourtant bien conscientes du potentiel qu’elles détiennent. La valorisation des données, nous le verrons plus bas, nécessite souvent une véritable stratégie de valorisation à mettre en place au sein de l’entreprise. En 2014 déjà, le CIGREF s’était intéressé aux enjeux business des données. Dans son rapport, il avait proposé une méthodologie de gestion des données par leur valorisation, assorti d’un outil d’auto-évaluation destiné aux entreprises afin de connaitre leur maturité quant à la question de la valorisation des données. Ce rapport a permis très tôt de mettre en lumière les lacunes des entreprises quant à la qualité, à l’architecture, la gouvernance et la valorisation des données au sein de leur structure. En effet, ressort de ce rapport le constat que les entreprises valorisaient très peu leurs données du fait d’un manque de compétence, et d’un manque de stratégie dédiée à cette valorisation. Une autre initiative d’étude, menée par Datasulting et à laquelle DPO Consulting est partenaire pour l’Observatoire de la maturé data des entreprises, a conduit aux mêmes conclusions.

2. Quelles données valoriser, et quelle stratégie adopter ?

La question est d’autant plus d’actualité aujourd’hui, depuis l’avènement, le 25 mai 2018 du Règlement Général sur la Protection des Données à caractère personnel qui impose de nouveaux défis aux entreprises. Il n’est ainsi plus seulement question de valoriser de la donnée afin d’en tirer un avantage concurrentiel, mais de valoriser des données de qualité et d’adopter des règles et stratégies éthiques garantissant une innovation respectueuse des droits et libertés des personnes. L’éthique et la compliance sont ainsi devenues omniprésentes dans la création de tout nouveau projet impliquant des données, a fortiori lorsqu’il s’agit de données à caractère personnel.

1) L’élaboration d’une stratégie de valorisation comme préalable essentiel.

L’élaboration d’une stratégie de valorisation de la donnée passe en tout premier lieu par un travail sur la donnée, permettant d’identifier et définir précisément la valeur des données, afin d’identifier celles véritablement valorisables à l’instant T, et les données valorisables dans un futur proche. Cette étape diagnostic est essentielle, car elle permet également, pour l’entreprise, de se positionner face à d’autres acteurs du même secteur, et la mise en lumière du potentiel de certaines données.

Plusieurs types de données pourront être valorisées :

  • Des données issues de bases de données, qui peuvent regrouper des données business, des données commerciales, ou encore des données publiques (on pense notamment aux données issues de l’Open Data)
  • Des données graphiques
  • Des données temporelles, pouvant être issues de tracking via application mobile, de monitoring ou encore de capteurs
  • Des données textuelles ou multimédias (photos, textes, vidéos)

Pour toutes ces catégories de données, et à chaque étape de leur valorisation, la question de leur qualité et de leur éthique doit être posée. D’où viennent ces données ? Quel fut leur processus de collecte, de stockage ? Les enjeux liés aux données sont, nous l’avons vu, grandissants et la régulation de la donnée et de leur utilisation par les textes Européens permettent d’éviter les travers d’une collecte illimitée de la donnée sans contrôle, et ainsi d’une valorisation de données par croisement attentatoire aux droits et libertés des personnes. Pour toute entreprise désireuse de valoriser ses données, s’impose le respect de la règlementation relative à la protection des données à caractère personnel : les données doivent ainsi être issues d’un processus de collecte éthique, respectueux des droits et libertés des personnes, et de qualité. Une question se pose alors : comment obtenir des données qualitatives ?

2) La notion de « donnée qualitative », clé de voute de la valorisation par l’intelligence artificielle.

La question induit inévitablement l’idée qu’une donnée qualitative représente correctement la réalité à laquelle elle se réfère. La qualité d’une donnée se réfère ainsi à sa conformité aux usages prévus (qui fait écho à l’obligation d’adéquation et de pertinence de la donnée, disposée par le RGPD) ainsi qu’aux processus et prises de décisions dont elle peut faire l’objet. La donnée, pour répondre à ces exigences, doit ainsi souvent être « nettoyée » afin de refléter le plus que possible cette réalité à laquelle elle se réfère, et de permettre par la suite une prise de décision claire par les différents processus utilisés, notamment lorsqu’une intelligence artificielle est utilisée. Cette phase de nettoyage est ainsi souvent couteuse et constitue une des limites de la valorisation des données. Toutes les données ne sont ainsi pas valorisables dans l’immédiat. Le recours à l’intelligence artificielle accentue par ailleurs cette exigence de qualité de la donnée, car elle permet de nouvelles perspectives de valorisation de la donnée.

3. L’intelligence artificielle : vers de nouvelles perspectives de valorisation.

L’intelligence artificielle s’est imposée depuis quelques années comme l’un des thèmes majeurs de la transformation numérique des entreprises. Europe, Etats-Unis, Chine, toutes les grandes puissances mondiales se sont emparées de la thématique. Elle est aujourd’hui le nouvel espoir de grand nombre d’entreprise, de par ses qualités exceptionnelles d’apprentissage, de prédiction, de prévention ou encore d’optimisation. Le terme d’intelligence artificielle revêt en vérité plusieurs visages. L’on entend par « intelligence artificielle » tous les procédés par lesquels un ordinateur imite le comportement humain. L’on y retrouve ainsi de nombreuses technologies, telles que les reconnaissances d’images/faciales, traduction automatique, traitement automatique du langage, ou intelligence prédictive. Par le machine learning (amélioration de l’algorithme par l’expérience) ou via le deep-learning (apprentissage par le biais de réseaux de neurones) il est possible aujourd’hui d’entrainer des algorithmes à la valorisation de la donnée.

1) L’intelligence artificielle, focus sur son fonctionnement.

Quelques pistes sur le fonctionnement de ces algorithmes. Par un entrainement quotidien, sur la base d’un volume conséquent de données, il est possible pour ces algorithmes de valoriser ce volume de données. Les données possèdent ainsi des caractéristiques particulières qui seront analysées par la machine (la date, l’heure, les couleurs, les formes…). A l’appui de ces caractéristique, la machine élabore un modèle descriptif qui s’affine à mesure que des données lui sont présentées. L’algorithme apprend, s’affine. Si l’on apprend à une machine à reconnaitre la photo d’un chat par rapport à celle d’un chien, l’algorithme se focalisera sur les caractéristiques de chacune des photos. Au fur et à mesure de son entrainement, la machine saura parfaitement différencier un chat d’un chien.

La valorisation des données par une intelligence artificielle fonctionne peu ou prou de la même manière. Au fur et à mesure de l’entrainement de la machine, cette dernière pourra affiner et apprendre de ces données. Cette technologie pourra ainsi être utilisée dans une multitude de cas. A l’issue de son apprentissage, la machine tirera une connaissance du volume de données qui lui a été fourni. Cette connaissance lui permet ainsi de prédire, de classifier ou de modéliser des concepts définis à partir de données. Ainsi, une intelligence artificielle au service de la valorisation des données permet d’automatiser certains processus. On pense à l’automatisation de certains processus métiers souvent couteux ou énergivore par la machine grâce notamment aux logiciels de saisie de notes de frais sur la base d’une photographie. De même, la machine peut être capable d’optimiser certaines données, notamment les données marketing afin d’évaluer un retour sur une campagne publicitaire. Prédire les comportements d’utilisateurs ou de clients, sur la base de données de consommation est également possible. Par le recoupement de plusieurs données, la machine peut établir des profils et prédire la survenance d’un ou de plusieurs évènements relatifs aux comportements clients.

2) L’algorithme au service de la valorisation de la donnée.

Ces comportements de la machine sont ainsi le résultat de la valorisation des données. Par l’alimentation d’un algorithme avec ces données à fort potentiel, la machine en déduit une connaissance, qui est la réelle valeur de la donnée. Ainsi, en soit, la donnée possède un potentiel, qui peut devenir une véritable valeur lorsqu’elle est analysée, comprise et connue par la machine. Cette connaissance, cette valeur tirée de la donnée par la machine, représente elle aussi de manière plus importante encore un levier concurrentiel indéniable pour les entreprises. Si la donnée est un actif clé de l’entreprise, cette dernière ne révèle tout son potentiel que lorsqu’elle est pleinement valorisée par la machine. Toutefois, des nuances doivent être apportées et rappelées. Comme précédemment évoqué, bien que la valorisation de la donnée par l’intelligence artificielle présente de séduisants avantages, il n’en demeure pas moins un processus couteux en ressources humaines et financières. Outre la règlementation en matière de protection des données personnelles, déjà bien connue, de nouveaux textes sont à l’étude au niveau européen concernant l’intelligence artificielle, et la création de standards éthiques de ces algorithmes. La Commission européenne a dévoilé au mois d’avril 2021 le premier cadre juridique sur l’intelligence artificielle au sein de l’Union Européenne, avec la volonté claire de prévenir les risques inhérent à cette nouvelle technologie. Le texte, profondément imprégné par l’idée de la création d’une intelligence artificielle éthique, sera présenté sous la forme d’un règlement commun. Aussi, au même titre que le RGPD, ce règlement cadre permettra une conformité de systèmes d’intelligence artificielle, afin de garantir, à chaque étape de la création, que l’intelligence artificielle répond à des standard de conformité et d’éthique. Avec une grille de lecture proche de celle du RGPD, et se rapprochant de la notion d’approche par le risque déjà connue dans le RGPD, ce nouveau règlement s’attèlera à la conformité règlementaire de l’intelligence artificielle.
Les données et les processus utilisés lors de la valorisation, jusqu’au résultat final de l’apprentissage de la machine devront se conformer aux exigences éthiques des futurs textes, régulant ainsi l’utilisation de l’intelligence artificielle afin d’éviter de nombreuses dérives (algorithmes biaisés, valorisation de données frauduleusement collectées en violation des dispositions du RGPD…). Car si les données représentent un actif à valoriser, elles ne doivent pas l’être au détriment des droits et libertés des personnes, bien souvent extérieures à ce processus de valorisation.

4. Le RGPD, remède aux dérives de la valorisation des données par l’IA.

Dans l’attente de la règlementation définitive de l’intelligence artificielle, qui apportera des éclairages nécessaires sur la création d’une intelligence artificielle éthique et responsable d’un point de vue technique, le RGPD donne déjà des éléments de réponse concrets à la question posée précédemment : comment concilier valorisation et conformité règlementaire ?

1) L’essentielle prise en compte des notions phares du RGPD pour une valorisation éthique.

Les dérives liées à la valorisation des données sont nombreuses. La première, et celle qui intéresse particulièrement le juriste en protection des données personnelles, c’est la collecte de données massive non vérifiée, avec une potentielle collecte de données sensibles sans le consentement de la personne. Lié à ce risque, celui de collecter des données à l’insu des personnes concernées par le traitement, ou d’opérer à un croisement de données dont la donnée finale sera conservée et permettra d’alimenter l’algorithme d’intelligence artificielle. L’on pense notamment à la collecte massive de données marketing, publicitaire, ou d’un tracking d’utilisateurs via des cookies dont le dépôt n’a pas été porté à la connaissance des utilisateurs ou à l’achat de bases de données frauduleusement collectées (darkweb, hacking de données, fuites…) dans le but d’alimenter un algorithme de prédiction des intentions d’achats d’utilisateur. Cette démarche devra nécessairement répondre des exigences règlementaires disposées par le RGPD.

Ainsi si l’intelligence artificielle doit être alimentée par des données de qualité, les données au service de l’apprentissage de l’algorithme doivent nécessairement répondre à certaines exigences liées à la règlementation sur la protection des données. Le système de valorisation lui-même doit ainsi être pensé par les entreprises afin de répondre au principe clé de la protection des données qui est le Privacy by Design, de l’adéquation et de la pertinence des données collectées et valorisées. Plus concrètement, le projet de valorisation des données d’une entreprise doit, dès sa création et dans son essence, prendre en considération les exigences du RGPD quant à la protection des données personnelles et prendre en amont la question de la sécurité et de la protection des données en considération. En ce sens, dès la première phase de tri des données valorisables, les données retenues doivent avoir été collectées conformément aux exigences règlementaires (par le consentement de la personne concernée le cas échéant, cette dernière devant avoir reçu une information préalable à la collecte de données ; respecter l’interdiction de collecte de données dites sensibles telles que des origines raciales ou ethniques ou des données de santé). Si les données sont issues de l’achat d’une base de données, il conviendra pour la société acheteuse de vérifier l’origine de ces données et leur traçabilité. Lors de la deuxième phase de la stratégie de valorisation de la données, l’intelligence artificielle travaillera ainsi à partir de données répondant aux exigences d’éthique et de conformité, et en résultera une valorisation éthique d’une donnée de départ. Car éthique et conformité vont de pair, toute entreprise désireuse de valoriser ses données, dans le but d’en tirer un avantage concurrentiel, devra concevoir ce nouveau projet à la lumière de la conformité RGPD, et effectuer un travail de mise en conformité de son organisme si cela n’a pas été réalisé au préalable.

2) Le DPO, acteur essentiel de la conformité et de la stratégie numérique de l’entreprise.

Quelle que soit la perspective, l’avis du DPO est essentiel lors de chacune des phases de préparation stratégique et lors des phases opérationnelles de valorisation de la donnée. Garant de la conformité RGPD d’un organisme, le DPO veillera à la conformité du traitement et du travail effectué par l’intelligence artificielle sur la donnée mais également dans le futur sur la conformité de l’algorithme en lui-même. Garant de l’éthique et du respect des exigences règlementaire, le DPO assure la conformité de la phase de collecte de données jusqu’à la valorisation de cette dernière et joue un rôle clé dans tout projet de valorisation de données. Permettant ainsi valorisation de la donnée et conformité règlementaire, le DPO joue un rôle déterminant dans l’élaboration du projet de valorisation. Clé de voute de la conformité, il est et doit être au cœur de la stratégie numérique de l’entreprise et participer à l’élaboration de chaque projet concernant la transition numérique de l’entreprise. L’intelligence artificielle et son fonctionnement sont dépendant des données qui l’alimente, et donc en lien avec la protection des données dont le DPO est le garant.

A la croisée de la valorisation économique, de l’entrainement d’une intelligence artificielle et de la protection des données, le DPO permet un éclairage nécessaire sur la conformité d’un tel projet, permettant la mise en place de garde fous à d’éventuelles dérives.

– Florence Respaud