Le monde est de plus en plus numérisé. De vastes ensembles de données personnelles sont de plus en plus utilisés pour guider la prise de décision dans pratiquement tous les secteurs, y compris celui des soins de santé. Dans ce contexte, les ensembles de données cliniques améliorent la conception des essais cliniques et, en fin de compte, les résultats pour les patients. Toutefois, la transparence des données d'essais cliniques ne doit pas se faire au détriment de la vie privée des patients. Les processus de dépersonnalisation visent à supprimer les informations susceptibles de permettre l'identification des patients. Il est également important de veiller à ce que les données disponibles soient suffisantes pour guider la prise de décision. La dépersonnalisation est un processus difficile, et les échecs peuvent entraîner des violations de la vie privée, des conséquences juridiques, une perte de confiance du public et une conception sous-optimale des essais. L'expansion rapide et la diversification des ensembles de données signifient que même les chercheurs bien intentionnés et expérimentés peuvent se tromper.
Des outils spécialisés comme Blur d'Instem aident les chercheurs à surmonter les difficultés liées à la dépersonnalisation et à éviter les pièges courants qui introduisent des risques. Nous examinons ici cinq erreurs courantes que les chercheurs commettent lorsqu'ils abordent la dépersonnalisation, et la manière dont ils peuvent les surmonter.
1 : Supposer que la suppression des identifiants directs est suffisante
Les chercheurs inexpérimentés peuvent supposer que la suppression des noms des patients est une dépersonnalisation suffisante. Cependant, les quasi-identifiants tels que l'adresse, la date de naissance, le sexe ou la maladie d'un patient, surtout s'ils sont rares, peuvent permettre son identification1. Cela est particulièrement risqué dans les situations où le patient est déjà connu de l'adversaire. Les attaques par liens se produisent lorsqu'un ensemble de données externe contient des informations d'identification. Associées à des quasi-identifiants qui se chevauchent, ces informations permettent aux adversaires de faire correspondre des informations provenant d'un ensemble de données dépersonnalisées à l'identité d'un patient2.
Pour garantir une dépersonnalisation suffisante, il faut masquer ou supprimer plus de données que ne le pensent de nombreux chercheurs. Les équipes doivent donc comprendre la différence entre les identifiants directs et indirects (quasi-identifiants). Il est également important d'être conscient des risques liés aux quasi-identifiants résiduels dans les ensembles de données. Les outils d'identification et de suppression des quasi-identifiants permettent d'atténuer les risques de manière proactive, tandis que les outils permettant d'évaluer les risques après le traitement des données peuvent aider les chercheurs à déterminer si leurs méthodes actuelles sont suffisantes.
2 : Sur-identification des données
Les chercheurs étant de plus en plus conscients des risques de réidentification, ils appliquent souvent de manière excessive les techniques de dépersonnalisation. Cela peut entraîner la perte d'informations cruciales qui sont moins susceptibles d'entraîner une identification, mais qui sont essentielles pour l'utilisation des données dans le cadre de la recherche3. Par exemple, les chercheurs qui étudient la propagation d'une maladie infectieuse ont besoin des données du code postal pour identifier des modèles géographiques. La suppression de ces informations pour protéger la vie privée pourrait réduire la facilité d'utilisation des données, empêchant ainsi des découvertes qui pourraient sauver des vies.
Un autre exemple de perte d'utilité des données en raison d'une suridentification est la suppression de l'AGE dans les documents. Cela peut supprimer des données précieuses qui auraient pu être réutilisées à d'autres fins. La meilleure façon de traiter des identifiants tels que l'AGE est de le remplacer par une fourchette d'âge, plutôt que de le supprimer complètement
Pour remédier à cet écueil, les chercheurs peuvent avoir besoin d'outils statistiques avancés et d'une compréhension nuancée des cas d'utilisation des données. Différentes méthodes permettent de surmonter cet écueil, notamment4:
- Généralisation : Résumer et élargir les données pour protéger l'identité d'un petit nombre de personnes ayant un point commun, par exemple le code postal ou le type de maladie rare.
- Confidentialité différentielle : Également connue sous le nom de perturbation des données, il s'agit d'une approche mathématique qui ajoute du bruit statistique à un ensemble de données, ce qui permet de décrire des schémas concernant plusieurs individus tout en atténuant le risque d'identification individuelle.
- Pseudonymisation : Une méthode de dépersonnalisation qui remplace les identifiants privés par de faux identifiants ou des pseudonymes.
3 : Ignorer les risques contextuels
Les chercheurs peuvent tomber dans le piège de supposer qu'un ensemble de données cliniques existe de manière isolée et ne se recoupe pas avec des ensembles de données plus facilement accessibles. Par exemple, des acteurs malveillants peuvent être en mesure de relier des données de séquençage génomique provenant d'ensembles de données d'essais cliniques à des bases de données génomiques publiques ou à des plates-formes de tests génétiques commerciaux. Ces données comprennent souvent des informations géographiques et même des identifiants directs. Le risque d'identification est plus élevé lorsque des identifiants spécifiques sont rares dans un ensemble de données, comme l'appartenance à une minorité ethnique ou à un groupe de maladies rares.
Ces risques obligent les chercheurs à mieux comprendre les environnements des ensembles de données, les destinataires et les cas d'utilisation. L'élaboration de modèles d'adversaires, avec les pires scénarios, c'est-à-dire lorsque le mauvais acteur dispose d'un accès maximal aux données et d'une puissance de calcul maximale, peut aider à anticiper et à atténuer les risques. Blur d'Instem utilise le traitement du langage naturel pour aider les chercheurs à évaluer l'étendue des données disponibles dans leur ensemble de données et à établir le risque contextuel en conséquence.
4 : S'appuyer sur une désidentification statique
La disponibilité des données n'est pas statique, pas plus que la technologie qui permet aux adversaires d'interroger les bases de données. En règle générale, la quantité d'informations disponibles sur un individu augmente au fil du temps, car les données sont collectées lors des visites chez le médecin, des achats, des voyages, des dossiers scolaires et de l'activité des médias sociaux. Au fur et à mesure que ces données s'accumulent, le risque de lien avec des ensembles de données cliniques augmente.
Les stratégies de dépersonnalisation doivent être dynamiques et évaluées en permanence pour rester efficaces. La surveillance continue de l'environnement de l'ensemble des données est cruciale pour identifier les risques émergents pour les patients individuels. Les chercheurs doivent également suivre de près les versions des bases de données afin de préserver la confidentialité. Par exemple, les codes postaux peuvent être présents dans la version A mais masqués dans la version B. Si les deux sont disponibles, la dépersonnalisation de la version B est redondante et la vie privée du patient est menacée.
5 : Ne pas tester ou valider les techniques de désidentification
Les chercheurs accordent souvent une confiance excessive aux techniques de dépersonnalisation, les croyant robustes et applicables à différentes situations et à différents ensembles de données. Cependant, ils doivent évaluer la pertinence de leurs stratégies dans diverses circonstances plutôt que de s'en remettre à une approche unique. Il est essentiel de tester minutieusement les méthodes de dépersonnalisation avant de les mettre en œuvre et d'évaluer en permanence les risques liés aux ensembles de données nouveaux ou mis à jour afin de garantir une protection continue de la vie privée. La création et la tenue de journaux et de pistes d'audit fournissant des informations détaillées sur les procédures de dépersonnalisation sont essentielles à cet égard. Une documentation minutieuse permet d'atténuer les risques liés à l'identification des patients et à la conformité.1.
Comment Blur aide les chercheurs à éviter les erreurs d'identification
Le logicielBlur d'Instem permet aux chercheurs d'éviter facilement ces erreurs courantes grâce à trois modules de base :
- Blur Data : Réalise une dépersonnalisation efficace et complète des données des patients et assure la conformité avec l'HIPAA, le GDPR et les organismes de réglementation mondiaux.
- Blur Risk : un système de notation basé sur la simulation qui permet aux chercheurs d'évaluer et de sélectionner la stratégie de dépersonnalisation la plus appropriée à la tâche à accomplir.
- Blur CSR : Utilise le traitement du langage naturel pour rendre anonymes les rapports d'essais cliniques et s'assurer que tous les identifiants potentiels sont pris en compte dans le texte, les tableaux et les images intégrées.
Conclusion
La dépersonnalisation des informations sur les patients est un processus complexe et laborieux qui nécessite une compréhension des environnements de bases de données et des tendances évolutives, tout en trouvant un équilibre entre la protection de la vie privée et la transparence. Les erreurs peuvent conduire à la perte de la vie privée des patients, à des échecs réglementaires, à l'érosion de la confiance du public et à la réduction de la crédibilité de la recherche. Des outils tels que Blur d'Instem offrent aux chercheurs des moyens efficaces et intelligents de surmonter les pièges courants et de réduire considérablement les risques dans leurs processus de dépersonnalisation. Des simulations de risques robustes et le traitement du langage naturel offrent aux chercheurs une tranquillité d'esprit, leur permettant d'aborder les soumissions d'essais cliniques en toute confiance, tout en maximisant l'utilisation des données.
Contactez un membre de l'équipe Instem dès aujourd'hui pour savoir comment Blur peut améliorer vos stratégies de dépersonnalisation et éliminer les risques de vos rapports cliniques.
Suivez-nous sur LinkedIn pour vous tenir au courant des derniers développements et des tendances du secteur.
Références
1. Guidance Regarding Methods for De-identification of Protected Health Information in Accordance with the Health Insurance Portability and Accountability Act (HIPAA) Privacy Rule. 7 septembre 2012. Consulté le 18 juin 2025. https://www.hhs.gov/hipaa/for-professionals/special-topics/de-identification/index.html
2. Borrero-Foncubierta A, Rodriguez-Garcia M, Muñoz A, Dodero JM. Protecting privacy in the age of big data : exploring data linking methods for quasi-identifier selection. Int J Inf Secur. 2025;24(1). doi:10.1007/s10207-024-00944-7
3. Commissaire O de la. L'importance de la transparence des essais cliniques et de la surveillance de la FDA. FDA. Publié en ligne le 12 avril 2023. Consulté le 18 juin 2025. https://www.fda.gov/news-events/fda-voices/importance-clinical-trial-transparency-and-fda-oversight
4. Dyda A, Purcell M, Curtis S, et al. Differential privacy for public health data : Un outil innovant pour optimiser le partage d'informations tout en protégeant la confidentialité des données. Patterns (N Y). 2021;2(12):100366. doi:10.1016/j.patter.2021.100366


