「图」新论文称从匿名数据集中识别指定人员并不困难


  02:54:36老王科技

  医医疗保健信息,税务记录,信用评级和Internet浏览历史记录逻辑上存储在数据集中。这些关于您的个人数据应该是匿名的。但周二在Nature Communications上发表的一篇论文表明,在这些数据集中识别某人的信息比你想象的要容易。

来自伦敦帝国理工学院和鲁汶大学的一组研究人员可以使用15个个人统计功能和一些机器学习,在任何数据集中正确地重新识别99.98%的美国人。研究人员说。他们的工作表明,重新识别是一个真正的风险,并质疑当前的做法是否符合现代数据保护法,如“欧洲通用数据保护法”和“加州消费者隐私法”。

研究人员对包括美国人口普查局在内的五个来源的机器学习数据进行了培训,总共有210个不同的数据集,覆盖了1100万美国人口。那么如何快速识别匿名数据的发现?伦敦帝国理工学院的计算隐私小组还创建了一个工具,用于检查匿名数据集中正确重新识别的可能性。

医疗保健信息,税务记录,信用评级和Internet浏览历史记录逻辑上存储在数据集中。这些关于您的个人数据应该是匿名的。但周二在Nature Communications上发表的一篇论文表明,在这些数据集中识别某人的信息比你想象的要容易。

来自伦敦帝国理工学院和鲁汶大学的一组研究人员可以使用15个个人统计功能和一些机器学习,在任何数据集中正确地重新识别99.98%的美国人。研究人员说。他们的工作表明,重新识别是一个真正的风险,并质疑当前的做法是否符合现代数据保护法,如“欧洲通用数据保护法”和“加州消费者隐私法”。

研究人员对包括美国人口普查局在内的五个来源的机器学习数据进行了培训,总共有210个不同的数据集,覆盖了1100万美国人口。那么如何快速识别匿名数据的发现?伦敦帝国理工学院的计算隐私小组还创建了一个工具,用于检查匿名数据集中正确重新识别的可能性。