vendredi, 19 avril 2024

Les erreurs d’anonymisation des données mettent en évidence les pièges courants de la confidentialité

Il existe certaines similitudes entre la cryptographie et l’anonymisation des informations. Ce qui semble un code étanche et solide s’avère avoir un point faible, permettant d’analyser ses astuces. De même, avec l’anonymisation des informations, ce qui apparaît comme une liste de caractéristiques méconnaissables est transformé en informations extrêmement délicates, souvent de manière imprévue. En cryptographie, les développeurs sont fortement encouragés par rapport aux solutions locales, car celles-ci n’auront pas été testées dans la nature. Et l’application d’approches éprouvées réduit également le risque d’erreurs d’anonymisation des informations.

Les utilisateurs et leurs données : redynamiser le développement en ligne

Le Big Data peut avoir des effets incroyables dans des endroits tels que la recherche en santé, et le verrouillage de ces détails risque de freiner les progrès médicaux. Certains modèles commerciaux – par exemple, dans le secteur émergent des technologies financières – peuvent dépendre de données agrégées pour offrir des fonctions et des services qui distinguent les entreprises de leurs concurrents traditionnels. Cependant, au même moment, les responsables de la défense des données seront conscients des responsabilités de conformité, consistant en la politique générale de protection des données (RGPD).

Selon le RGPD, les enregistrements d’informations ne doivent pas identifier les personnes sans leur permission. Grâce aux médias sociaux, aux critiques d’articles et à une tonne d’autres informations circulant sur le Web, l’anonymisation des informations peut être difficile, car de nombreuses entreprises l’ont trouvé à leurs dépens. De plus, l’anonymisation des informations – au sens strict – décrit des détails qui ont en fait été entièrement dissociés de toute information individuelle. Des étapes simples telles que le remplacement d’un nom de client par un numéro d’identification, ce que l’on appelle la pseudonymisation, ne suffisent pas pour les fonctions GDPR car l’information n’est qu’une faille de sécurité loin d’être identifiable. Par exemple, la confidentialité doit être préservée même si une liste de clients devait être publiée de manière inattendue sur le Web.

Guide d’étude

Gérer le différend entre la confidentialité et l’étude des besoins de développement. Et la connaissance de l’anonymisation de l’information est extrêmement prisée. Le livre de Khaled El Emam et Luk Arbuckle sur « Anonymizing Health Data » fait plus de 200 pages, soulignant le nombre de facteurs que les responsables de la protection des informations et leurs associés doivent prendre en compte. L’automatisation aiderait certainement à créer de grands ensembles d’informations proposés plus tôt aux scientifiques, mais la complexité de la tâche et le souci des erreurs d’anonymisation des informations suggèrent souvent d’ajouter une action d’examen manuel à la feuille de tâche.

Tourner notre attention vers où les choses ont échoué, il existe des exemples classiques qui servent de mise en garde. Et, il faut dire que l’anonymisation des informations est difficile à obtenir à l’ère d’Internet, d’autant plus qu’il n’y a pas de compte pour combien de temps les individus passeront à essayer de découvrir des secrets. AOL l’a découvert en 2006 lorsque vingt millions de questions de recherche correspondant à ce que le fournisseur en ligne pensait être 650 000 utilisateurs anonymisés ont été lancées à titre de recherche. La suppression des adresses IP et des noms d’utilisateur s’est avérée insuffisante pour protéger la confidentialité des utilisateurs. Les internautes fascinés par les informations ont pu assembler des indices dans les expressions de recherche pour relier les entrées à des personnes réelles.

Empreintes digitales des données

Quelques mois plus tard, Netflix a détecté un snafu comparable. Encouragé à crowdsourcer les compétences des scientifiques des données pour résoudre le casse-tête de la façon d’anticiper les films que les utilisateurs voudront apprécier ensuite en fonction de leurs critiques de films, il a rendu disponibles des détails connectés, mais évidemment anonymisés. Et, pour encourager la participation, il y avait même un prix de 1 million de dollars pour l’entrée gagnante. Cependant, il s’avère – sans surprise avec le recul – que les critiques de films sont des choses individuelles. Et, si vous avez une idée approximative des goûts des clients en matière de films ainsi que du moment où ils sont le plus susceptibles de les avoir visionnés, vous aviez de bonnes chances d’identifier les utilisateurs, malgré les mesures prises par Netflix pour effacer les Champs PII.

Épuisement numérique : mettre les émissions d’informations au travail

Les oublis d’anonymisation des informations peuvent être trouvés dans divers milieux. Et les détails géolocalisés peuvent être particulièrement problématiques, comme Strava l’a découvert lorsqu’une carte thermique publiée par l’entreprise d’applications logicielles de fitness révélant des données agrégées a entraîné des problèmes de sécurité. La visualisation, qui intégrait des informations internationales recueillies sur 2 ans, expliquait soudain que les porteurs de montres Garmin et autres trackers de fitness s’exerçaient dans des endroits imprévus. Les passionnés des sciences de l’information ont rapidement fait le lien entre les coordonnées géographiques des sentiers de course et de promenade et l’emplacement des bases militaires. Et bien que l’emplacement des bases militaires puisse être déduit à partir d’images satellites, le problème ici, du point de vue de la sécurité nationale – comme l’a noté la BBC – est que la carte thermique a révélé quelles installations étaient les plus actives et consistait en des cours suivis par travailleurs.

Les géodonnées anonymisées sont une réidentification particulièrement consciente, car les personnes participent souvent à des activités prévisibles, telles que les déplacements pour se rendre au travail, qui peuvent rapidement révéler leur domicile et leurs zones de travail. Et cela utilise malgré le titre de votre tâche. Le projet de confidentialité personnelle du New York City Times a pu anonymiser les données de localisation et suivre l’emplacement du président des États-Unis de l’époque, Donald Trump, comme indiqué sur une carte basée sur un navigateur.

Des qualités distinctes et reconnues

Les navigateurs eux-mêmes peuvent avoir des attributs suffisants pour identifier leurs utilisateurs. Et les bloqueurs de publicités peuvent avoir des répercussions inattendues. Plus la configuration du navigateur est spéciale, plus il est simple de se concentrer sur les individus. L’Electronic Frontier Foundation propose une application Web bénéfique, baptisée « Cover your track », qui donne un résumé des qualités les plus uniques et les plus déterminantes de votre navigateur. Les empreintes digitales numériques peuvent être inattendues, mais soulèvent néanmoins des problèmes de confidentialité. Dès 2012, les scientifiques ont souligné que les signatures de puissance collectées par les compteurs intelligents ont la capacité de révéler quels types d’appareils restent utilisés et quand. Et l’information pourrait même identifier les programmes en cours de lecture à la télévision en fonction des modifications de la luminosité de l’écran.

La nature du monde contemporain peut rendre certaines omissions d’anonymisation des informations difficiles à préparer, mais cela ne devrait pas nous empêcher de doubler les meilleures pratiques. Et il y a constamment beaucoup à apprendre des erreurs.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici