来自欧洲两所大学的研究人员发表了一种方法,他们说这种方法能够正确地重新识别匿名数据集中99.98%的个体,只有15个人口统计属性。他们的模型表明,通过“匿名化”数据的当前方法(例如发布信息的样本(子集)),不能保护复杂的个人信息数据集不被重新识别。实际上,建议没有“匿名”和发布的大数据集可以被认为是不安全的重新识别 - 不是没有严格的访问控制。
“我们的研究结果表明,即使是大量采样的匿名数据集也不太可能满足GDPR [欧洲通用数据保护条例]规定的匿名现代标准,并严重挑战去识别发布 - 忘记模型的技术和法律充分性, “伦敦帝国理工学院的研究人员比利时UniversitéCatholiquede Louvain在摘要中写了他们的论文,该论文发表在Nature Communications杂志上。
当然,这绝不是数据匿名化第一次被证明是可逆的。帝国学院的Yves-Alexandre de Montjoye论文背后的研究人员之一已经在之前的研究中证明了信用卡元数据,只有四个随机信息足以将90%的购物者重新识别为独特的个体,例如。
在另一项由Montjoye共同撰写的研究中,调查了智能手机位置数据的隐私侵蚀,研究人员能够在仅有四个时空点的数据集中唯一地识别95%的个体。
与此同时,尽管有这样的研究显示从数据库中挑选个人是多么容易,但是“匿名”的消费者数据集(例如经纪人为营销目的而交易的那些数据集)可以包含每人更多的属性。
研究人员引用数据经纪人Experian销售Alteryx例如,可以访问每个家庭248个属性的去识别数据集,例如,1.2亿美国人。
通过他们的模型测量,基本上没有一个家庭可以安全地被重新识别。然而,大规模的数据集继续被交易,润滑的是“匿名”的润肤声称......
(如果你想通过广泛的个人数据用于商业目的而进一步悄悄地走出来,那个被耻辱的,现在已经不复存在的政治数据公司Cambridge Analytica去年表示 - 在Facebook的高峰时期数据滥用丑闻 - 其秘密美国选民定位工作的基础数据已获得Acxiom等知名数据经纪人的许可,益百利和Infogroup。具体而言,它声称从“非常大的声誉数据聚合器和数据供应商”合法获得“数百万美国个人数据点”。)
虽然多年来研究表明,在匿名数据集中重新识别个体是多么可怕,但这里的新颖内容是研究人员建立了一个统计模型,估计对任何数据集这样做是多么容易。
他们通过计算潜在匹配正确的概率来做到这一点 - 所以基本上他们正在评估匹配唯一性。他们还发现,小样本分数未能保护数据不被重新识别。
他们写道:“我们根据人口统计和调查数据验证了我们对210个数据集的方法,并表明即使极小的采样分数也不足以防止重新识别并保护您的数据。”“我们的方法获得的AUC准确度分数范围从0.84到0.97,用于预测具有低错误发现率的个体唯一性。我们发现,99.98%的美国人通过使用15个特征(包括年龄,性别和婚姻状况)在任何可用的“匿名”数据集中被正确地重新识别。
他们采取了可能不同寻常的步骤,即发布他们为实验建立的代码,以便其他人可以重现他们的发现。他们还创建了一个Web界面,任何人都可以使用输入属性来获取基于这些特定数据点在数据集中重新识别它们的可能性。
在一个基于输入三个随机属性(性别,出生数据,邮政编码)的测试中,通过添加一个模型,重新识别模型得分的理论个体的几率从54%增加到完全95%更多属性(婚姻状况) - 强调属性远远少于15的数据集仍然会给大多数人带来巨大的隐私风险。
经验法则是数据集中的属性越多,匹配就越可能是正确的,因此“匿名化”保护数据的可能性就越小。
例如,Google提供了很多值得思考的东西AI公司DeepMind作为与英国国家健康服务的研究伙伴关系的一部分,已获得100万次“匿名”眼部扫描。
生物特征数据当然充满了独特的数据点。因此,任何眼睛扫描 - 包含超过(字面上)几个像素的视觉数据 - 可能真的被认为是“匿名”的概念是不可信的。
欧洲目前的数据保护框架确实可以自由使用和共享真正的匿名数据 - 而法律规定的处理和使用个人数据的严格监管要求。
虽然该框架也仔细识别重新识别的风险 - 并使用假名数据的分类而不是匿名数据(前者非常多的个人数据并受到相同的保护)。只有当数据集被剥夺了足够的元素以确保不再能够识别个体时,才能在GDPR下将其视为“匿名”。
该研究强调了任何数据集难以满足真正,强大匿名的标准是多么困难 - 考虑到重新识别的风险即使只有少数可用属性也可以显着提升。
“我们的研究结果驳斥了这样的说法:首先,重新识别不是一个实际的风险,其次,采样或发布部分数据集提供了合理的否定性,”研究人员断言。
“我们的结果首先表明,很少有属性通常足以在高度不完整的数据集中重新识别具有高可信度的个体,其次,拒绝采样或释放部分数据集的声明,例如,来自一个医院网络或单个在线服务,提供合理的否定性。最后,他们表明,第三,即使人口的独特性很低 - 通常用来证明数据被充分去识别为匿名的论据 - 许多人仍有被攻击者成功重新识别的风险我们的模型。“
他们继续呼吁监管机构和立法者承认数据重新识别带来的威胁,并对“可证明的隐私增强系统和安全措施”给予法律关注,他们认为这可以允许以隐私保护的方式处理数据- 在其引文中包括2015年的论文,该论文讨论了加密搜索和隐私保护计算等方法;细粒度访问控制机制;政策执行和问责制;和数据来源。
“正在重新定义匿名标准,包括。欧盟的国家和地区数据保护机构必须保持健全并应对新威胁,例如我们在本文中提出的威胁。他们需要考虑到重新识别的个体风险和缺乏合理的可否认性 - 即使数据集不完整 - 并且在法律上承认广泛的可证明的隐私增强系统和安全措施,这些将允许数据在有效保护人们隐私的同时使用,“他们补充道。
“展望未来,他们质疑目前的去识别做法是否符合现代数据保护法的匿名标准,如GDPR和CCPA [加利福尼亚州的消费者隐私法],并强调从法律和监管的角度来看,需要超越识别发布 - 忘记模型。“