Data

Pseudonymisation des données de santé : un pilier de la protection des patients

Dans notre précédent article, “Réutiliser les données des EDS : que dit la CNIL ?”, nous avons souligné l’importance du cadre strict imposé par la CNIL pour garantir la protection des données de santé dans les Entrepôts de Données de Santé (EDS). Parmi les mesures incontournables figure la pseudonymisation, un processus essentiel dans un contexte où la confidentialité des données devient une priorité absolue.
→ Mais en quoi consiste réellement la pseudonymisation des données de santé ? Comment est-elle mise en œuvre concrètement dans les établissements de santé ? Quelles sont ses limites, et quelles sont les innovations à venir dans ce domaine ?

Qu’est-ce que la pseudonymisation ?

La pseudonymisation des données de santé est une technique qui vise à prévenir les risques de divulgation involontaire ou d'utilisation abusive des données sensibles. Pour ce faire, la CNIL recommande de remplacer les informations personnelles détectées dans les documents médicaux par des substituts plausibles (par exemple : remplacer un nom détecté par un autre nom aléatoire), plutôt que de simplement les retirer, rendant ainsi plus difficile leur ré-identification.

Le Règlement Général sur la Protection des Données (RGPD), notamment dans son article 32, encourage également la pseudonymisation comme une des mesures techniques appropriées pour assurer la protection des données personnelles. En complément, la CNIL insiste sur l’importance de cette pratique pour éviter la réidentification des patients dans le cadre des traitements de données de santé.

Un de nos blog posts explore en détail les différences entre pseudonymisation et anonymisation, illustrant les défis liés à la désidentification irréversible des données médicales. Contrairement à l'anonymisation, qui rend impossible toute identification ultérieure d'une personne, la pseudonymisation conserve une clé permettant de réidentifier un individu sous certaines conditions strictement encadrées.

La pseudonymisation représente à la fois un défi et une condition essentielle pour assurer la sécurité des données des patients. Contrairement à d'autres domaines du traitement automatique du langage, la pseudonymisation des données de santé se heurte à plusieurs contraintes spécifiques : la forte dépendance à la langue, les difficultés de partage des données annotées, l’impossibilité de partager des modèles d’apprentissage supervisé, les problèmes d’interopérabilité entre les formats des métadonnées, et les exigences élevées en termes de performance, notamment de rappel, pour limiter au maximum les risques de réidentification.

Les risques et limites de la pseudonymisation

Bien que la pseudonymisation offre une protection efficace, elle n’élimine pas complètement le risque de réidentification. Si les données pseudonymisées sont croisées avec d'autres jeux de données contenant des informations personnelles, il peut parfois être possible de retracer l'identité d'un patient. C’est pourquoi il est crucial de combiner cette méthode avec d'autres techniques, telles que le chiffrement des données et des contrôles d'accès stricts, pour maximiser la protection des données sensibles.

De plus, contrairement à l’anonymisation, la pseudonymisation permet une réidentification sous certaines conditions, comme dans le cadre d’une recherche clinique. Cette réidentification, bien que réglementée, pose des questions en termes de confidentialité, surtout dans des contextes de fuites de données ou de cyberattaques. Ainsi, il est nécessaire de bien comprendre ces limites afin d'appliquer la pseudonymisation de manière sécurisée et conforme aux attentes réglementaires.

La pseudonymisation des données de santé, vue par l’AP-HP

À ce sujet, l'Assistance Publique-Hôpitaux de Paris (AP-HP) a dévoilé une étude intitulée “Development and Validation of a Natural Language Processing Algorithm to Pseudonymize Documents in the Context of a Clinical Data Warehouse” dans Methods of Information in Medecine.

Bien que les contraintes inhérentes à ce domaine soient nombreuses, l’étude fait tout son possible pour permettre à d’autres acteurs de créer leur propre système de pseudonymisation. Elle découpe le processus en plusieurs étapes : extraction des textes à partir des PDF, identification des données personnelles, puis remplacement de ces entités par des substituts. Le modèle développé par l'AP-HP atteint des performances remarquables.

Leur outil de pseudonymisation a été mis en production dans l'entrepôt de données de l'AP-HP, analysant quotidiennement environ 5 000 documents. Bien qu’il ne soit pas possible de partager publiquement l’ensemble des textes annotés, cette étude partage des leçons et des retours d'expérience précieux pour toute équipe souhaitant développer un système de pseudonymisation performant.

Un exemple concret : les données du CHU de Toulouse pseudonymisées par Arkhn

Arkhn a développé son propre modèle de pseudonymisation dans le cadre du projet AlgoTTR. Mené en collaboration entre Arkhn, le CHU de Toulouse et Codoc, ce dernier illustre parfaitement les défis et opportunités liés à la pseudonymisation des données de santé. L’objectif était de fournir des données pseudonymisées pour tester un algorithme de Pfizer sur l'amylose à transthyrétin, une maladie cardiaque rare. Dans cette collaboration, Arkhn était chargé de constituer la cohorte de patients, d'extraire les données structurées, et de pseudonymiser ces données.

Arkhn a su relever ce défi en développant un modèle de pseudonymisation spécifiquement adapté aux données du CHU de Toulouse, en s’inspirant des pratiques éprouvées dans le domaine et dans la publication de l’AP-HP tout en les ajustant à ses besoins. Une des principales réussites du projet repose sur la coordination efficace entre les différentes équipes impliquées, notamment pour mener au mieux la campagne d'annotation de 600 documents, nécessaire à la conception d’un modèle de pseudonymisation performant. Arkhn a mené ce processus avec rigueur, garantissant une qualité d'annotation optimale dès les 100 premiers documents. Cela a permis l’utilisation d’un modèle de pré-annotation et  d'accélérer le travail sur les 500 documents nécessaires, tout en maintenant une haute précision.

Les bases posées par l’annotation et le retour d’expérience d’autres acteurs a ensuite permis à l’équipe NLP d’Arkhn de se concentrer sur la conception technique du modèle de pseudonymisation afin d’optimiser les performances numériques et ressenties.

Arkhn a obtenu un F1-score de 98,7%, un chiffre très proche du score de 99% obtenu par le modèle de l'AP-HP. Bien que cette comparaison soit à interpréter avec prudence en raison de la différence de paramètres entre les deux projets, elle souligne l'importance du travail réalisé par l'AP-HP et l'importance d'une approche collaborative pour surmonter les défis de la pseudonymisation. Cela offre des orientations précieuses aux nouveaux intervenants dans le développement de leur propre modèle de pseudonymisation. Ce projet fut aussi l’opportunité de témoigner de la capacité d’Arkhn à coordonner efficacement un projet complexe impliquant plusieurs parties prenantes, tout en assurant une pseudonymisation sécurisée et conforme aux exigences réglementaires strictes de la CNIL.

Perspectives d'avenir : innovations technologiques

À l'avenir, des technologies comme la cryptographie homomorphe ou le machine learning en environnement sécurisé pourraient révolutionner la manière dont nous protégeons les données de santé. Ces approches permettraient de traiter les données sans jamais dévoiler d’informations personnelles, tout en préservant leur confidentialité.

Ces innovations, bien qu'encore au stade de développement, représentent un champ prometteur pour renforcer la sécurité des données médicales. En combinant ces technologies avec des méthodes de pseudonymisation avancées, les établissements de santé pourraient exploiter pleinement leurs données tout en garantissant une confidentialité maximale.

En conclusion, la pseudonymisation des données de santé constitue une étape cruciale pour assurer la protection des informations sensibles contenues dans les EDS. L’exemple de l'AP-HP et du projet AlgoTTR mené par Arkhn montre que, bien que complexe, la mise en place d'un modèle de pseudonymisation performant est possible grâce à une collaboration efficace et à une méthodologie rigoureuse. 

Pour les structures cherchant à valoriser leurs données tout en évitant les sanctions, respecter ces standards devient non seulement une obligation légale, mais aussi une opportunité d’innovation.

Lire un autre article

Icône de professionnel de santé

Réutiliser les données des EDS
que dit la CNIL ?

Icône de professionnel de santé

La donnée de santé : un cadre juridique à sa mesure

Icône de professionnel de santé

Anonymisation vs Pseudonymisation