Il est aujourd'hui essentiel de fournir aux systèmes d'intelligence artificielle utilisés en production les techniques les plus avancées en matière de protection de la vie privée. En effet, la confidentialité des données est devenue une condition préalable essentielle pour de nombreux acteurs et en particulier dans la santé et la finance. Cependant, bien que des méthodes existent pour assurer la protection des données des utilisateurs, elles restent hors de portée des non-spécialistes.
C'est pourquoi nous sommes très impliqués dans plusieurs projets open-source dont PySyft, un projet de la communauté OpenMined qui rassemble 9000 personnes autour des dernières avancées de la recherche et des défis concrets rencontrés par les entreprises. Ces racines dans l'open-source et le monde universitaire nous aident à être pionniers dans l'apprentissage fédéré ouvert au service de la santé et à fournir des solutions pratiques aux établissements de soin.
La plupart des projets d'intelligence artificielle reposent toujours sur la collecte massive de données pour construire des bases centralisées sur lesquelles des modèles sont entraînés. Toutefois, cette vision se heurte à plusieurs obstacles, notamment l'impératif de protection de la vie privée des utilisateurs, la propriété privée de certaines données et les réglementations en matière de données personnelles telles que le RGPD.
L'apprentissage fédéré offre une solution en renversant l'approche : au lieu de collecter les données vers un serveur central, les données sont stockées localement dans des entrepôts de données décentralisés et standardisés. Le modèle est désormais envoyé à ces nœuds distants pour s'entraîner sur les jeux de données locaux, les mises à jour du modèle provenant des différents nœuds sont ensuite agrégées et le résultat est ré-envoyé aux nœuds. De cette façon, les données ne quittent jamais ces nœuds qui peuvent être en pratique des hôpitaux, des cliniques ou des banques.
Nous fournissons à tout projet d'intelligence artificielle une interface unique afin de déployer leurs modèles de production dans tous les établissements de santé de notre réseau. Cette plateforme est agnostique du framework d'apprentissage utilisé et supprime les obstacles techniques au déploiement d'outils d'apprentissage fédérés. Elle a aussi vocation à offrir des outils de traçabilité et de sécurité nécessaires pour protéger les modèles et les données utilisées. De plus, les données de santé accessibles sont standardisées sous le format FHIR ou OMOP et sont déjà structurées ainsi que nettoyées. Ces deux atouts permettent aux data scientists de se concentrer uniquement sur l'élaboration de leur modèle et la résolution des problèmes médicaux.
Enfin, parce que nous attachons beaucoup d'importance à la transparence de notre démarche et aux retours de la communauté d'utilisateurs, tout notre code est open-source et disponible sur GitHub.
Nous collaborons avec de nombreux partenaires académiques pour aider à bâtir les outils de demain.
En plus de l'apprentissage fédéré, nous participons activement au développement de nouveaux outils pour améliorer la confidentialité des données, notamment le calcul multipartite sécurisé (ou Secure Multi-Party Computation), une technique qui permet le calcul sur des données chiffrées, et la confidentialité différentielle (ou Differential Privacy) qui empêche les modèles de stocker des données spécifiques d'individus et leur permet seulement d'apprendre des comportements statistiques.
Les projets ambitieux ont besoin d'une communauté pour les soutenir
et ils doivent être accessibles au plus grand nombre