Entrepôts de données de santé, un seul concept juridique pour deux réalités : architectures de données vs. logiciels de recherche clinique

Nous vous parlions dans notre tout premier post du Modern Data Management. Bienvenue dans sa suite logique ! Nous explorons ici toutes les subtilités liées au concept d’entrepôt de données de santé qui fait fureur en ce moment dans la HealthTech – on le voit et on l’entend partout.

Force est de constater que l’on voit surtout passer l’expression “entrepôt de données” pour parler d’une architecture de données. Parfois, nous l’employons nous-mêmes faute de temps… (Ce mea culpa aura raison de nous). Or, c’est sans équivoque un abus de langage, puisque ces deux notions sont différentes et méritent d’être mises en contraste.

Techniquement, en effet, une architecture dedonnées peut contenir zéro, un ou plusieurs entrepôts de données (data warehouses). Tout comme une bibliothèque contient plusieurs étagères. Ces data warehouse sont simplement des “contenants” qui permettent de stocker la donnée. On peut avoir des entrepôts de données contenant une donnée “brute”, d’autres contenant une donnée parfaitement harmonisée, d’autres contenant les mêmes données mais dans d’autres formats ou pour d’autres usages (on ne range pas les données de la même façon pour la recherche clinique, pour le pilotage ou encore pour le soin !)

Reprenons notre schéma d’origine et observons : une architecture de données peut bien contenir plusieurs entrepôts de données

Cette confusion entre “data warehouse en santé” et architecture de données de santé introduit de fait un biais de compréhension qui nous fâche (un peu). Allons-y pour le message clé de ce blogpost.

Parler d’entrepôt de données de santé sous-entend une manière de gérer la donnée selon le concept d’ETL (extract-transform-load), selon laquelle on importerait, transformerait et chargerait les données une fois pour toutes et pour tous les usages… Conception archi fausse (sans mauvais jeu de mots).

L’écosystème data s’est rendu compte ces dernières années que cela ne correspondait souvent pas à la réalité du terrain, et c’est particulièrement vrai en santé où les usages des données peuvent être très différents, par exemple entre le soin et la recherche clinique.

Par contraste avec cette conception, une architecture suivant les principes du modern data management permet notamment d’envisager le traitement de la donnée selon un processus d’ ELT (extract-load, puis transform). Cela peut paraître anodin mais c’est un changement de paradigme radical par rapport au traditionnel ETL : une fois la donnée extraite et chargée dans l’architecture, on peut la transformer à de multiples reprises de manière transparente, en collaborant avec l’ensemble des parties prenantes nécessaires à cette transformation (médecins, data engineers, data scientists, chercheurs, etc), dans un environnement propice à ces manipulations et pour s’adapter à chacun des usages.

Le changement de paradigme “extract-load+transform” : au coeur de l’archi data moderne

Enfin, juridiquement, tel que défini par la CNIL, un entrepôt de données désigne “une base de données comportant des données de santé qui permettra de réaliser ultérieurement plusieurs traitements” (recherche ou évaluation en santé, production d’indicateurs, pilotage stratégique de l’activité). Cette définition concerne donc à la fois des data warehouses et des architectures de données complètes telles que nous venons de les décrire…

Ceci explique donc cela. Il y a un fossé entre les architectures de données modernes et les nombreuses “solutions d’entrepôts de données de santé” disponibles sur le marché, qui sont en fait des logiciels de recherche clinique techniquement adossés à un data warehouse. Si vous avez tout suivi, vous comprendrez que ces solutions correspondent donc en quelque sorte à l’un des blocs d’une architecture de données mais n’en possèdent ni le caractère modulaire, ni les caractéristiques transparentes et collaboratives, ni l’immense potentiel d’usages.

Un logiciel de recherche clinique adossé à un data warehouse n’est pas une architecture de données moderne.

Stay tuned, nos prochains blogposts arrivent !

La standardisation des données, l'interopérabilité, les principes FAIR, le stockage de la donnée, mais aussi l’IA en santé… L’équipe d’Arkhn se mobilise pour démocratiser ces sujets et a hâte de vous livrer le fruit de ses efforts didactiques.

…Et Arkhn dans tout ça ?

Arkhn déploie des architectures de données de santé modernes (cela n’aura échappé à personne 🙃) et juridiquement conformes dans les établissements de santé.

🌶️ Hot topic : Dans le cadre de l’appel à projet “Entrepôts de données de santé”, Arkhn accompagne les établissements de santé à monter leurs dossiers de candidature.

Rejoignez le mouvement !

Découvrez notre écosystème open-source et dynamique
en nous rejoignant en ligne.
Nous vous tenons au courant de nos dernière avancées sur Twitter.
Vous pouvez venir discuter avec nous à toute heure sur Slack.
Vous pouvez également mettre la main à la pâte sur notre repo Github.