塞雷布拉斯系统公司(Cerebras Systems)正在基于有史以来最大的芯片制造专门的AI计算机,该公司正在摆脱其作为神经网络训练强国的原始角色,并将其才华转向更传统的科学计算。在具有5亿个变量的模拟中,CS-1击败了世界排名第69的超级计算机。
它还解决了一个问题,即燃煤电厂的燃烧问题,其速度比其模拟的真实火焰还快中国机械网okmao.com。Cerebras及其在美国国家能源技术中心的合作伙伴称,最重要的是,CS-1的完成速度比当今任何基于CPU或GPU的超级计算机都要快。
塞雷布拉斯首席执行官安德鲁·费尔德曼(Andrew Feldman)表示,这项研究于本周在超级计算大会SC20上进行了展示,该研究表明塞雷布拉斯的AI架构“不是一个小技巧”。
他说,天气预报,飞机机翼的设计,预测核电站的温度以及许多其他复杂的问题都可以通过模拟“流体在空间中的运动随时间的推移”来解决。模拟将世界划分为一组多维数据集,对这些多维数据集中的流体运动进行建模,并确定多维数据集之间的交互作用。这些多维数据集可以有100万个或更多,并且可能需要500,000个变量来描述正在发生的事情。
根据Feldman的说法,这种解决方案需要计算机系统具有许多处理器内核,非常接近内核的大量内存,连接内核和内存的带宽带宽,以及连接内核的带宽负载。方便地,这也是神经网络训练计算机所需要的。CS-1包含一块单芯片,具有40万个内核,18 GB的内存,9 PB的内存带宽和每秒100 PB的核心到核心带宽。
NETL的科学家使用Cerebras CS-1和Joule超级计算机对发电厂的燃烧进行了模拟,该计算机具有84,000个CPU内核,耗电量为450千瓦。相比之下,Cerebras的功率约为20千瓦。焦耳在2.1毫秒内完成了计算。CS-1的速度提高了200倍以上,并在6微秒内完成。
费尔德曼说,这种速度有两个含义。一个是,当今没有CPU甚至GPU的组合都可以在此问题上胜过CS-1。他通过指出仿真的性质来支持这一点-它不能很好地扩展。就像厨房里有太多厨师一样,在一个问题上扔太多核心实际上会减慢计算速度。当使用其84,000个内核中的16,384个时,焦耳的速度达到了顶峰。
限制来自内核之间以及内核与内存之间的连接。想象一下要模拟的体积为370 x 370 x 370的多维数据集堆栈(136,900个垂直堆栈,具有370层)。Cerebras通过将垂直堆栈的阵列分配给相应的处理器内核阵列,将问题映射到晶圆级芯片。
由于这种安排,通过在相邻内核之间传输数据来完成一个多维数据集对另一个多维数据集的影响的通信,该数据的传输速度是最快的。在计算堆栈的每一层时,代表其他层的数据仍位于内核的内存中,可以在其中快速访问它。
而且由于模拟完成的速度比模拟的真实燃烧事件快,因此CS-1现在可以完成一项新工作-在复杂机器的控制系统中发挥作用。
费尔德曼(Feldman)报告说,SC-1也在其最初的制造目的上取得了进展。制药商葛兰素史克(GlaxoSmithKline)是一个知名客户,SC-1在匹兹堡超级计算中心的阿贡国家实验室和劳伦斯·利弗莫尔国家实验室从事AI工作。他说,在军事,情报和重型制造业中,有几个他无法列举的客户。
他说,下一代SC-1正在研发中。第一代使用台积电(TSMC)的16纳米工艺,但是Cerebras已经拥有7纳米版本,其内存(40 GB)和AI处理器内核数量(850,000)增加了一倍以上。