IA & NLP

Démystification du NLP en santé : de la théorie à la réalité 

Louise Garnier

Les correcteurs automatiques, les moteurs de recherches, la reconnaissance faciale, les algorithmes de recommandation sur les réseaux sociaux ou les sites de divertissement… Que l'on en soit conscient ou non, l’Intelligence Artificielle (IA) est omniprésente dans notre quotidien. En particulier, nous allons nous intéresser à un domaine de l’IA qui a particulièrement captivé l’attention dernièrement : le traitement du langage naturel, ou Natural Language Processing (NLP). Cette branche de l’IA a connu un essor fulgurant au cours des dernières années. Les technologies de NLP bousculent aujourd’hui de nombreux domaines, et le monde médical ne fait pas exception. En tant que Data Scientist chez Arkhn, je vous invite à plonger dans l’univers fascinant du NLP et à découvrir comment cette technologie révolutionnaire peut transformer la manière dont nous traitons les données médicales. Dans cet article, nous explorerons les concepts clés du NLP et les applications potentielles qui pourraient redéfinir le traitement de la donnée médicale, mais aussi les challenges qui accompagnent l’implémentation de telles technologies dans le domaine clinique. 

🤖 IA, ML, DL, NLP… Définitions

Le monde de l’informatique est rempli d'abréviations, anglicismes et autres acronymes barbares qui peuvent sembler intimidants. Cependant, pas d’inquiétude, je vais vous donner toutes les clés pour les maîtriser en toute simplicité. 

Commençons par le commencement: qu’est-ce que l’Intelligence Artificielle (IA) ? Au risque de vous décevoir, il n’existe pas de définition universelle pour décrire l’IA. Selon le Larousse ce terme désigne “l'ensemble des théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler l'intelligence”. Concrètement, l’IA est un domaine qui vise à créer des systèmes autonomes qui peuvent résoudre des problèmes et réaliser des tâches typiquement réalisées par des humains

💡 Contrairement à ce qu’on pourrait penser, il n’y pas besoin d’algorithmes extrêmement sophistiqués pour créer une IA. Un exemple historique d’intelligence artificielle est celui d’Eliza, un programme informatique créé dans les années soixantes qui simule une conversation avec une psychologue. Eliza n’a rien d’intelligent, le programme se contente de répondre des phrases toutes faites basées sur des règles très simples, mais il réussit à donner l'illusion d'une interaction humaine.

De nos jours, la grande majorité des systèmes d’intelligence artificielle repose sur des méthodes d’apprentissage automatique, ou Machine Learning (ML), et plus précisément d’apprentissage profond, ou Deep Learning (DL). On parle d’apprentissage automatique lorsque le système “apprend” à se construire ses propres règles à partir d’une grande quantité de données. Si on souhaite implémenter un algorithme capable de faire la différence entre des photos de chats et de chiens, on lui donnera un très grand nombre de photos en lui indiquant lesquelles correspondent à quel animal. Au terme de l’apprentissage, l’algorithme parviendra à effectuer cette distinction de manière autonome. 

L’apprentissage profond est la branche de l’apprentissage automatique qui repose sur des réseaux de neurones artificiels, dont l’architecture est inspirée des réseaux neuronaux humains. Alors qu’un neurone est chargé de transmettre un signal bioélectrique, sa contrepartie artificielle est chargée de calculer une valeur de sortie en fonction des valeurs reçues en entrée. Un réseau de neurones artificiel n’est donc en réalité qu’une succession de fonctions mathématiques qui traite la donnée, et l’apprentissage revient à optimiser ces fonctions. On appelle ces réseaux de neurones des modèles, et le processus d’apprentissage est aussi appelé entraînement. C’est le Deep Learning qui permet aujourd’hui aux machines d’effectuer des tâches très complexes, comme jouer aux échecs, reconnaître votre visage lorsque vous déverrouillez votre téléphone, ou même conduire des voitures !

Et le NLP dans tout ça ? Le traitement du langage naturel est une branche de l’intelligence artificielle qui vise à créer des machines capables d’interpréter, manipuler ou générer le langage humain tel qu’il est écrit et parlé. Les modèles de NLP sont entraînés sur de grandes quantités de texte, ce qui leur permet d’apprendre la grammaire, le vocabulaire, mais pas seulement. Imaginez qu’un modèle soit entraîné sur une encyclopédie entière, il va non seulement apprendre les règles linguistiques, mais aussi toutes les informations contenues dans le texte. C’est pour cela que les modèles de NLP sont aujourd’hui très puissants, d’autant plus qu’ils sont souvent entraînés sur des quantités de texte faramineuses, plus grandes que ce à quoi un humain est exposé durant sa vie. Ces modèles peuvent aboutir aux fameux systèmes de discussion que vous connaissez sûrement, comme Chat-GPT, mais ils peuvent aussi servir à construire des modèles qui vont exceller sur des tâches plus spécifiques. Au quotidien, ce sont des algorithmes de NLP qui se cachent derrière les systèmes de traduction, la correction automatique ou encore les assistants vocaux. 

🩺 Le NLP et la santé 

Dans le secteur médical, il existe une grande quantité de données en langage naturel. C’est le cas de tous les documents écrits ou dictés par les professionnels de santé présents dans les dossiers patients. Ces documents sont une mine d’informations, cependant il est très compliqué d’automatiser leur fouille et leur exploitation et cette tâche est d’habitude réalisée à la main, ce qui peut être très chronophage. C’est ici que le NLP entre en jeu, car il permet de mettre en place des algorithmes qui vont être en mesure de traiter ces documents de manière automatique. Des modèles de NLP peuvent être entraînés et utilisés pour extraire des informations à partir de rapports cliniques et de notes de médecins. Ils peuvent identifier les symptômes, les diagnostics, les traitements et même suivre l'évolution des patients au fil du temps. Cela permet aux professionnels de santé de gagner un temps précieux en réduisant la charge de travail liée à la fouille de données non structurées et en facilitant l'accès rapide à des informations cruciales. 

Cependant, l'application du NLP dans le domaine clinique n'est pas sans défis. L'un des plus gros challenges lorsque l’on souhaite implémenter un modèle de NLP clinique est celui de la technicité du langage médical. Les différents rapports que l’on peut trouver dans un dossier patients peuvent varier considérablement en termes de structure, de terminologie et de style d'écriture. De plus, les abréviations médicales, les acronymes et les termes techniques abondent, ajoutant une couche de complexité. Par exemple, "HTA" peut signifier "hypertension artérielle" dans un contexte, mais dans un autre, cela pourrait être interprété comme "hyperthyroïdie aiguë". Le modèle de NLP doit donc être formé pour reconnaître et interpréter cette diversité linguistique. Deux principaux obstacles se présentent alors lorsqu’on souhaite entraîner un modèle de NLP médical. Premièrement, les ressources dans ce domaine sont rares, en particulier en français. Deuxièmement, distinguer un chat d’un chien est à la portée de tous, donc implémenter un modèle qui en fait de même n’est pas très complexe en soi. A l’inverse, comprendre une note de médecin n’est pas une tâche si simple, et construire un modèle spécialisé dans le domaine médical nécessite d’avoir cette connaissance médicale au préalable, ce qui est un obstacle considérable. 

Un autre défi majeur réside dans la confidentialité des données. Les rapports médicaux contiennent souvent des informations sensibles sur les patients. Il est impératif de garantir que ces données restent confidentielles et ne soient pas compromises lors de l’entraînement des modèles de NLP, ou lors de leur utilisation.

Si ces obstacles parviennent à être surmontés, le NLP représente une opportunité exceptionnelle de mettre à profit toutes les informations disponibles dans les documents médicaux. 

🏥 Le NLP chez Arkhn

Chez Arkhn, les algorithmes de NLP sont des outils puissants qui contribuent à améliorer la qualité des soins de santé et à favoriser la recherche médicale. Nous utilisons le NLP pour mettre en qualité les données non structurées afin d’alimenter les architectures de données des établissements de santé. Notre objectif est de réduire considérablement le temps passé à traiter à la main les documents cliniques en automatisant la tâche. Par exemple, nous pouvons automatiquement repérer tous les patients qui correspondent à des critères spécifiques, même si ces critères ne sont présents que dans les documents, afin d'accélérer la création de cohortes. Un autre exemple est celui de l'anonymisation de documents, qui consiste en la suppression de toutes les informations identifiantes des textes pour les rendre utilisables dans divers projets. En somme, le NLP permet d’exploiter de manière optimale la mine d’informations que sont les documents médicaux. 

Mais alors, comment ? Vous imaginez bien qu’il n’est pas question de partager les documents des patients à Chat-GPT et de lui demander d’en extraire les informations pertinentes. Les documents restent en sécurité chez un hébergeur HDS ou bien directement dans les établissements de santé, et ce sont les modèles qui viennent à eux. Nous développons et entraînons des modèles spécifiques au domaine clinique, chacun spécialisé dans une tâche particulière. Un modèle pourra par exemple extraire les maladies et les traitements d’un patient et un autre standardisera les termes extraits en retrouvant leur correspondance dans une ontologie médicale. 

Le NLP chez Arkhn

Exemple d’extraction d’informations d’un rapport clinique

Cela est rendu possible par l’association d’une équipe de data scientists et d’une équipe médicale interne à Arkhn. Cette dernière est indispensable pour fournir les informations médicales nécessaires à l’entraînement des modèles. De plus, pour améliorer encore plus les modèles sur des cas d’usages particuliers, ils  peuvent être enrichis de règles métiers spécifiques qui peuvent être définies en collaboration avec les professionnels de santé. 

💡 Cette fusion du monde de l’IA et du monde médical est la clé de la création de systèmes de NLP performants qui peuvent répondre aux besoins uniques des établissements de santé.

Nous croyons également fermement en la transparence, en particulier sur des sujets qui peuvent s’avérer obscurs comme l’IA. Dans un domaine aussi délicat que la santé, il est impératif que les professionnels de la santé puissent avoir confiance dans les systèmes NLP que nous développons. C'est pourquoi nous nous efforçons de rendre nos modèles et nos algorithmes aussi transparents que possible, en mettant l'accent sur la traçabilité des décisions et la compréhension des résultats. Cela est rendu possible grâce à la segmentation du processus en différents modèles très spécialisés, ce qui permet de retrouver facilement d’où provient telle ou telle information, et d’affiner le modèle si besoin. 

De plus, le domaine du NLP évoluant à une vitesse considérable, de nouvelles méthodes et algorithmes voient le jour régulièrement. Il est indispensable de rester à jour sur ces technologies, afin de proposer des solutions toujours plus innovantes. Dans l'équipe NLP d'Arkhn, nous accordons une grande importance à la veille technologique, et nous partageons nos découvertes à travers la publication d’articles de vulgarisation. Si vous êtes intéressés par le domaine du NLP, je vous encourage à consulter nos précédents articles, qui mettent en lumière certaines des dernières découvertes dans le domaine.

Conclusion

Le NLP est un outil puissant qui promet de révolutionner la manière dont les données de santé sont traitées et exploitées. Ces technologies permettent d’améliorer la vie des professionnels de santé, d’accélérer la recherche médicale et de transformer le parcours de soin. Chez Arkhn, nous sommes convaincus que le NLP continuera de jouer un rôle essentiel dans l'avenir de la santé tout en respectant les principes éthiques et les normes de confidentialité des données. Ces technologies offrent un potentiel immense pour transformer la manière dont les données de santé sont gérées, analysées et utilisées, et nous sommes déterminés à être des partenaires de confiance dans cette transformation.

Lire un autre article

Icône de professionnel de santé

La donnée de santé : un cadre juridique à sa mesure

Icône de professionnel de santé

Les enjeux du cohorting en recherche clinique...

Icône de professionnel de santé

Ce que les modèles de langes comprennent du monde