机器学习就像侵蚀一样发生。
数据被扔向一个数学模型,就像沙粒在岩石景观上飞舞。这些谷物中的一些只是沿着海岸航行,几乎没有影响。但其中一些也有自己的标志:根据随着时间推移出现的固有模式和波动,测试、硬化并最终重塑景观。
有效的对有效率的没有那么多。
里海大学(Lehigh University)电气和计算机工程罗伯特·维斯曼(Robert W.Wieseman)教授里克·布鲁姆(Rick Blum)试图提高分布式学习技术的效率,这些技术对现代人工智能(AI)和机器学习(ML)至关重要。本质上,他的目标是在不降低整体影响的情况下,抛出的数据量要少得多。
在《IEEE信号处理精选主题杂志》的一期ML专刊上发表的论文“稀疏梯度差异的分布式学习”中,Blum及其合作者提出使用“稀疏化和纠错的梯度下降方法”或GD-SEC,提高在“worker-server”无线体系结构中进行的机器学习的通信效率。该刊于2022年5月17日出版。
“分布式优化的问题出现在通常依赖无线通信的各种场景中,”他说。“延迟、可扩展性和隐私是基本的挑战。”
“已经开发了各种分布式优化算法来解决这个问题,”他继续说道,“一种主要方法是在工作者服务器体系结构中使用经典GD。在这种环境中,中央服务器在聚合从所有工作者接收的数据后更新模型的参数,然后将更新后的参数广播回工作者。但总体性能受限于每个工作者必须始终传输其所有数据的事实。在培训深度神经网络,每次迭代时每个工作设备的容量大约为200 MB。这一通信步骤很容易成为总体性能的一个重要瓶颈,尤其是在联合学习和边缘AI系统中。“”
Blum解释说,通过使用GD-SEC,通信需求显著降低。该技术采用了一种数据压缩方法,其中每个工作者将小幅度梯度分量设置为零鈥攖他对信号的处理相当于不为小事操心。然后,worker只向服务器传输剩余的非零组件。换句话说,有意义的、可用的数据是在模型上启动的唯一数据包。
Blum说:“目前的方法造成了这样一种情况:每个工人都有昂贵的计算成本;GD-SEC相对便宜,每轮只需要一个GD步骤。”。
布鲁姆教授在这个项目上的合作者包括他的前学生陈一成博士,现在是LinkedIn的软件工程师;Martin Tak公司谩膷, 穆罕默德·本·扎耶德人工智能大学副教授;布莱恩·萨德勒(BrianM.Sadler),IEEE终身研究员,美国陆军智能系统高级科学家,陆军研究实验室研究员。