新型DRAM可以加速AI：可以在处理器的硅上方的3D层中构建使用氧化物半导体的无电容器DRAM

当今计算中最大的问题之一是“内存墙”，即处理时间与将数据从单独的DRAM内存芯片传送到处理器所花费的时间之间的差。AI 应用程序的日益普及仅使该问题更加明显，因为找到面孔，理解语音并推荐消费品的庞大网络很少能容纳在处理器的板载内存中。

在12月的IEEE国际电子设备会议（IEDM）上，美国和比利时的独立研究小组认为，一种新型的DRAM可能是解决方案中国机械网okmao.com。他们说，这种新型的DRAM由氧化物半导体制成，并内置于处理器上方的各层中，其比特长度是商用DRAM的数百或数千倍，并且在运行大型神经网络时可以提供巨大的面积和节能效果。

您计算机中的DRAM存储单元分别由单个晶体管和单个电容器制成，即所谓的1T1C设计。为了向该单元写入位，晶体管被打开，电荷被推入电容器的（1）或从电容器（0）去除。要从中读取，会提取并测量费用（如果有）。该系统超快，便宜并且消耗很少的功率，但是它有一些缺点。首先，读取该位会消耗电容器的电量，因此读取意味着将该位写回到内存中。而且，即使您不读该位，电荷最终也会通过晶体管从电容器中泄漏出来。因此，所有单元都需要定期刷新以保留数据。在现代DRAM芯片中，此操作每64毫秒完成一次。

将DRAM嵌入处理器芯片是在商业上完成的，但是它有其局限性。电气和计算机工程学教授Arijit Raychowdhury表示：“单片1T1C设计面临的挑战一直是制造电容器以及制造具有超低泄漏的晶体管的困难，”他在佐治亚理工学院任教，曾与圣母大学和罗彻斯特理工学院的研究人员合作开发了一种新型嵌入式DRAM。在为逻辑电路构建的制造过程中，很难制造出优质的电容器。

相反，新的嵌入式DRAM仅由两个晶体管制成，没有电容器（2T0C）。之所以可行，是因为晶体管的栅极是自然的（尽管很小）电容器。因此，代表该位的电荷可以存储在此处。此设计具有一些关键优势，尤其是对于AI而言。

图表

新型DRAM可以加速AI：可以在处理器的硅上方的3D层中构建使用氧化物半导体的无电容器DRAM 中国机械网,okmao.com

与由晶体管和电容器组成的普通DRAM不同，2T0C嵌入式DRAM由两个晶体管组成。该位存储在右侧晶体管的电容中，并由左侧设备放置在此处。右侧设备栅极上的电荷意味着电流可以流过它，因此，单独的晶体管控制读取和写入。

Raychowdhury解释说，其中之一是写作和阅读涉及不同的装置。因此，您可以从2T0C DRAM单元读取数据，而无需破坏数据而不必重写数据。您所要做的就是查看电流是否流过栅极保持电荷的晶体管。如果有电荷，它将使晶体管导通。电流流动。如果那里没有电荷，则电流会停止。

Suman Datta实验室的Notre Dame研究生Jorge Gomez对IEDM与会者说，易于阅读对于AI尤其重要，因为每次写一次神经网络往往至少要阅读三遍。

Raychowdhury说，但是2T0C的布置不适用于硅逻辑晶体管。由于晶体管的栅极电容太低并且通过晶体管的泄漏太高，任何位都会立即流失。因此，研究人员正在转向使用非晶氧化物半导体制成的设备，例如用于控制某些显示器中像素的设备。

这些具有几种令人钦佩的品质。值得注意的是，它们可以驱动大量电流，从而使写入速度更快；而当它们关闭时，它们泄漏的电荷很少，这使得位的使用寿命更长。美国团队使用钨掺杂的氧化铟掺杂约1％作为其半导体，简称IWO。

Raychowdhury说，该器件的导通电流“是氧化物晶体管中报道得最好的一些”。“它为逻辑操作提供了足够的读/写速度。同时关断电流真的很小……比硅的最佳电流小两到三个数量级。” 实际上，该团队必须构建该设备的超大型版本，以便完全获得电流泄漏的任何测量结果。

同样重要的是，可以在（相对）低温下加工此类氧化物。这意味着由它们制成的设备可以构建在处理器芯片上方的互连层中，而不会损坏下面的芯片设备。在此处建立存储单元为数据到达硅片上的处理元件提供了一条直接的高带宽路径，从而有效地击倒了存储壁。

在对三个常见神经网络的仿真中，该团队将其技术的1层，4层和8层版本与22纳米1T1C嵌入式DRAM（IBM Power8处理器中使用的技术）进行了比较。由于控制2T0C嵌入式DRAM占用了处理器上的一定数量的逻辑，因此仅使用新存储器的单层实际上并没有在所有神经网络数据所需的芯片面积方面给您带来优势。但是4层2T0C DRAM将嵌入式存储器所需的芯片面积减少了约3.5倍，而对于8层2T0C DRAM，则减少了7.3倍。

同样，当2T0C嵌入式DRAM的一层以上时，其性能优于1T1C嵌入式DRAM。例如，使用一平方毫米的四层或八层嵌入式DRAM，ResNet-110神经网络再也不必从芯片外获取数据了。与1T1C设计相比，这可能节省大量时间和精力，而1T1C设计大约需要70％的时间使用片外数据。

在比利时的研究人员IMEC使用铟镓锌氧化物作为半导体公布了一个类似的2T0C嵌入方案在IEDM。Imec的高级科学家Attilio Belmonte指出，IGZO必须在有氧的情况下进行退火，以修复由氧空位引起的材料缺陷。这具有减少IGZO中可有助于电流流动的自由电子数量的作用，但是如果没有它，设备将不会像开关那样起作用。

对于这种“氧气钝化”的需求，对IGZO DRAM器件的设计具有多种连锁效应-包括所涉及电介质的选择和位置。Imec开发的优化设备具有将IGZO放置在二氧化硅层上并覆盖有氧化铝的功能。

这种组合特别有效地控制了将钻头排走的泄漏。2T0C存储单元的平均保留时间为200秒，其中25％的单元将其位保持超过400秒，比普通DRAM单元长数千倍。他对IEDM的工程师说，在后续研究中，Imec团队希望使用IGZO的不同阶段将保留时间延长到100个小时以上。

这种保留时间将设备置于诸如电阻RAM和磁RAM的非易失性存储器领域。许多小组致力于使用嵌入式RRAM和MRAM来加快AI的速度。但是Raychowdhury说2T0C嵌入式DRAM比它们更具优势。

这两个需要大量的电流才能写入，目前，电流必须来自处理器硅片中的晶体管，因此节省的空间更少。更糟糕的是，它们的切换速度肯定会比DRAM慢。他说：“至少在写过程中，任何基于电荷的事物通常都会更快。” 证明要在处理器上构建嵌入式2T0C DRAM完整阵列的速度有多快的证明。他说，但是那即将到来。