返回顶部
首页
机械 | 工程 | 工具 | 行业 | 信息 | 集合 | 诗词 | 组词 | 范文 |
 
您现在的位置:
首页 机器人 详细信息

开源平台支持隐私保护机器学习的研究

2022-07-23    阅读量:30168    新闻来源:互联网     |  投稿

密歇根大学(University of Michigan)的研究人员发布了迄今为止最大的机器学习技术基准数据集,该数据集旨在考虑数据隐私。

这种称为联合学习的方法在终端用户设备(如智能手机和笔记本电脑)上训练学习模型,而不需要将私有数据传输到中央服务器。

“通过在生成数据的地方进行现场训练,我们可以在更大的真实世界数据上进行训练,”密歇根大学计算机科学与工程博士生范来解释道,他在本周的国际机器学习会议上介绍了FedScale训练环境。

赖说:“这也让我们能够减少隐私风险,以及与将原始数据从终端用户设备收集到云中相关的高昂通信和存储成本。”。

联邦学习仍然是一种新技术,它依赖于充当集中协调器的算法。它将模型交付给设备,在相关用户数据上对其进行局部训练,然后将每个部分训练的模型带回并使用它们生成最终的全局模型。

对于许多应用程序,此工作流提供了额外的数据隐私和安全保护。消息应用程序、医疗保健数据、个人文档和其他敏感但有用的培训材料可以改进模型,而不用担心数据中心的漏洞。

除了保护隐私外,联合学习还可以通过减少甚至有时消除大数据传输来提高模型训练的资源效率,但在广泛使用之前,它面临着几个挑战。跨多个设备的培训意味着无法保证可用的计算资源,用户连接速度和设备规格等不确定性会导致大量不同质量的数据选项。

“联合学习作为一个研究领域正在迅速发展,”密歇根大学计算机科学与工程副教授Mosharaf Chowdhury说。“但大多数工作都使用了少量数据集,这些数据集非常小,并不代表联合学习的许多方面。”

这就是FedScale的用武之地。该平台可以在几个GPU和CPU上模拟数百万用户设备的行为,使机器学习模型的开发人员能够探索他们的联合学习程序将如何执行,而无需大规模部署。它服务于各种流行的学习任务,包括图像分类、对象检测、语言建模、语音识别和机器翻译。

“任何在最终用户数据上使用机器学习的东西都可以联合起来,”乔杜里说。“应用程序应该能够学习和改进其提供服务的方式,而不需要实际记录用户所做的一切。”

作者详细说明了真实模拟联合学习体验必须考虑的几个条件:数据的异构性、设备的异构性、异构连接和可用性条件,所有这些条件都能够在多种机器学习任务上进行多尺度操作。据Chowdhury称,FedScale的数据集是迄今为止发布的最大数据集,专门针对联邦学习中的这些挑战。

赖说:“在过去几年里,我们收集了几十个数据集。原始数据大多是公开的,但很难使用,因为它们的来源和格式多种多样。”。“我们也在不断努力支持大规模的设备部署。”

FedScale团队还推出了一个排行榜,以推广在U-M系统上培训的最成功的联合学习解决方案。

免责声明:本文仅代表作者本人观点,与中网机械,okmao.com无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。客服邮箱:23341571@qq.com | 客服QQ:23341571
全站地图 | 二级目录 | 上链请联系业务QQ:23341571 或 业务微信:kevinhouitpro