Data Architecture
Nous vous parlions dans notre tout premier post du Modern Data Management. Bienvenue dans sa suite logique ! Nous explorons ici toutes les subtilités liées au concept d’entrepôt de données de santé qui fait fureur en ce moment dans la HealthTech – on le voit et on l’entend partout.
Force est de constater que l’on voit surtout passer l’expression “entrepôt de données” pour parler d’une architecture de données. Parfois, nous l’employons nous-mêmes faute de temps… (Ce mea culpa aura raison de nous). Or, c’est sans équivoque un abus de langage, puisque ces deux notions sont différentes et méritent d’être mises en contraste.
Techniquement, en effet, une architecture de données peut contenir zéro, un ou plusieurs entrepôts de données (data warehouses). Tout comme une bibliothèque contient plusieurs étagères. Ces data warehouse sont simplement des “contenants” qui permettent de stocker la donnée. On peut avoir des entrepôts de données contenant une donnée “brute”, d’autres contenant une donnée parfaitement harmonisée, d’autres contenant les mêmes données mais dans d’autres formats ou pour d’autres usages (on ne "range" pas les données de la même façon pour la recherche clinique, pour le pilotage ou encore pour le soin !)
Cette confusion entre “data warehouse en santé” et architecture de données de santé introduit de fait un biais de compréhension qui nous fâche (un peu). Allons-y pour le message clé de ce blogpost.
Enfin, juridiquement, tel que défini par la CNIL, un entrepôt de données désigne “une base de données comportant des données de santé qui permettra de réaliser ultérieurement plusieurs traitements” (recherche ou évaluation en santé, production d’indicateurs, pilotage stratégique de l’activité). Cette définition concerne donc à la fois des data warehouses et des architectures de données complètes telles que nous venons de les décrire…
Ceci explique donc cela. Il y a un fossé entre les architectures de données modernes et les nombreuses “solutions d’entrepôts de données de santé” disponibles sur le marché, qui sont en fait des logiciels de recherche clinique techniquement adossés à un data warehouse. Si vous avez tout suivi, vous comprendrez que ces solutions correspondent donc en quelque sorte à l’un des blocs d’une architecture de données mais n’en possèdent ni le caractère modulaire, ni les caractéristiques transparentes et collaboratives, ni l’immense potentiel d’usages.