PII匿名数据和大数据隐私
您知道吗,大多数美国人 (87%) 仅可通过三项个人数据进行唯一识别:出生日期、五位邮政编码和性别?有点令人不安,对吧? 图像 您知道吗,大多数美国人 (87%) 仅可通过三项个人数据进行唯一识别:出生日期、五位邮政编码和性别?有点令人不安,对吧? 更多阅读 图像 这是您的生活,由您的数据主演 隐私死了吗?调查显示 数据湖:一个更平衡的视角 使用 Hadoop 总能省钱吗? 大数据备忘单:高管们想知道的 这个经常被引用的统计数据最初是在 15 多年前在2000 年卡内基梅隆大学一篇 关于个人身份信息 (PII) 的论文1中报道的。尽管自本报告发布以来日期发生了变化并且数据量呈指数级增长,但挑战仍然相同:以隐私的名义保护个人身份。 PII 是匿名数据争论的核心。在我的上一篇文章中,我揭穿了一个关于匿名数据的信念,即:匿名数据使我的个人身份保密。
我提出的更准确的说
法是个人可能会从匿名数据中被重新识别。让我们进一步探讨一下。 关于 PII 和匿名数据。匿名化(或去识别化)数据是什么意思?简单来说,就是从数据集中删除任何可以识别特定个人身份的信息;例如,此人的姓名、信用卡号码、社会安全号码、家庭住址等。销售消费者数据的公司(例如数据经纪人)通常只销售匿名且通常是汇总的数据。因此,如果从这些数据集中剥离 PII(如下图所示),有什么大不了的? 图像 如 数据库 果我们谈论的是单个数据集(如上例),那么这可能没什么大不了的。不过,有趣的地方在于组合多个数据集时。下图是数据聚合器(或代理)对数据集执行的操作的简单视图: 图像 这两个数据集可能完全无害,但随着时间的推移将它们放在一起并进行分析时,它们可能会引入新的隐私问题。这种方式说明了这一点:“学习我买面包有什么害处?了解这一点没有什么坏处,但如果你注意到,随着时间的推移,我不再买面包,你可能会得出结论,我可能患有糖尿病……这里发生的事情是隐私机制的失败;他们没有有效地作曲。
为什么这很重要
让我们回到我之前的问题:如果我的个人身份信息 (PII) 在出售或传递之前被剥离和汇总,有什么大不了的? 重要的是:借助当今的大数据技术,从这些匿名数据中重新识别个人身份变得越来越容易。编程技术不断发展,以将这些匿名化的片段从一个或多个数据集中拉回一起。因此,如果一家公司 WS 号码 说它在将您的数据传递给其他人之前将其匿名化,请注意您的身份仍可能通过高级重新识别技术被泄露。 图像 关于这一点实际上正在进行激烈的辩论。一个阵营坚决支持用于匿名化数据的技术和算法;他们相当有信心个人无法被重新识别,因为技术不存在。另一个阵营并不买账,并表示重新识别算法实际上正在发挥作用,而且只会变得更好。他们还指出目前使用的一些匿名化技术根本不起作用。 我倾向于同意后一个阵营。即使现在没有发生,技术和算法上升到不仅可以更快地重新识别个人身份,而且可以更快、更便宜地重新识别个人的复杂程度只是时间问题。