从银行到通信,我们的现代日常生活都是由数据驱动的,对隐私的持续关注。现在,发表在《自然计算科学》上的一篇新的EPFL论文认为,围绕隐私保护机制做出的许多承诺永远不会实现,我们需要接受这些固有的限制,而不是追逐不可能的事情。
以个性化医疗、更好的公共服务或更绿色、更高效的工业生产为形式的数据驱动创新有望为人们和我们的地球带来巨大的利益,广泛获取数据被认为是推动这一未来的关键。然而,积极的数据收集和分析做法对社会价值观和基本权利发出了警报。
因此,如何扩大对数据的访问,同时保护敏感数据的机密性,个人信息已成为释放数据驱动技术潜力的最普遍挑战之一,美国计算机与通信科学学院EPFL安全与隐私工程实验室(SPRING)的一篇新论文认为,任何数据使用在良好的实用性和隐私性下都是可解的,这一承诺类似于追逐彩虹。
SPRING实验室负责人、论文合著者、助理教授Carmela Troncoso表示,有两种传统的保护隐私的方法,“可以使用保护隐私的加密技术,在解密域中处理数据并获得结果。但限制是需要设计非常有针对性的算法,而不仅仅是进行一般计算。”
论文认为,这种隐私保护技术的问题在于,它们并没有解决与从业者最相关的关键问题之一:如何以保护隐私的方式共享高质量的个人级数据,但允许分析师以高度灵活的方式提取数据集的全部价值。
试图解决这一挑战的第二条途径是数据的匿名化鈥攖也就是说,删除姓名、位置和邮政编码,但特隆科索认为,问题往往在于数据本身。“Netflix有一个著名的例子,该公司决定发布数据集并举办公开竞赛,以产生更好的‘推荐’算法。它删除了客户的名字,但当研究人员将电影评级与人们对电影进行评级的其他平台相比较时,他们能够取消人们的匿名。”
最近,合成数据已成为一种新的匿名化技术,但该论文指出,与其支持者所作的承诺相比,它与传统的数据匿名化一样,受到相同的隐私/效用权衡。“正如我们在论文中所说的那样,研究人员和从业者应该接受数据实用程序的高度灵活性和对隐私的有力保障之间的内在权衡,”SPRING实验室的博士助理、论文的合著者TheresaStadler说。
“这很可能意味着需要缩小数据驱动应用程序的范围,数据持有者需要明确选择最适合其用例的数据共享方法,”Stadler继续说道。
这篇论文的另一个关键信息是关于更慢、更可控的技术发布的想法。如今,超快部署是一种常态,如果出现问题,我们会抱着“以后再解决”的心态,特隆科索认为这种方法非常危险, “我们需要开始接受存在的局限性。我们真的想在没有隐私和对民主有重大影响的地方继续这种数据驱动的免费模式吗?就像土拨鼠日一样,我们已经讨论了20年,机器学习也在发生同样的事。我们推出了算法,它们有偏见,希望以后能得到修复。但是什么呢如果无法修复?"
然而,狭窄的功能和高度的隐私并不是科技巨头的商业模式,Troncoso敦促我们大家更仔细地思考他们如何解决这一关键问题。
“谷歌和苹果所做的很多事情本质上都是粉饰他们的有害行为并关闭市场。例如,苹果不让应用程序收集信息,而是以所谓的‘隐私保护’方式收集数据,然后再将其出售。我们要说的是,没有隐私保护的方式。问题是‘这项技术是否防止了系统的危害,还是真的让这个系统同样有害?隐私本身不是目的,隐私是保护我们自己的一种手段,”特隆科索总结道。