具有集成高带宽存储器的堆叠裸片神经网络制造技术

技术编号:35558841 阅读:17 留言:0更新日期:2022-11-12 15:40
神经网络加速器裸片堆叠在高带宽存储器上并且与该高带宽存储器集成,使得该堆叠表现为单个三维(3

【技术实现步骤摘要】
【国外来华专利技术】具有集成高带宽存储器的堆叠裸片神经网络

技术介绍

[0001]人工神经网络是受生物神经网络(例如,大脑)启发的计算系统。人工神经网络(以下简称“神经网络”)包括相互连接的人工神经元集合,这些人工神经元对它们的生物对应物进行松散建模。神经网络通过重复考虑示例来“学习”执行任务。例如,我们知道,对于某些品种的水果,人类观察者可以学会在视觉上区分成熟和未成熟样本。虽然我们可以猜测成熟度与样本水果图像中明显的质地、大小和颜色的某个函数相关,但我们可能无法准确地知道专家分拣员所依赖的视觉信息。神经网络可以导出图像数据的“成熟度”函数。然后,该函数可以用于从未分类水果的图像中“推断”样本成熟度。
[0002]“有监督学习”是训练神经网络的一种方法。在水果分类示例中,神经网络被提供有由人类品尝者手动标记为描绘“成熟”或“未成熟”水果的图像。未经训练的神经网络从默认分类函数或“模型”开始,该默认分类函数或“模型”可能与优化后的默认分类函数或“模型”几乎没有相似之处。因此,应用于未经训练的神经网络的图像会在推断的成熟度与标记的成熟度之间产生很大误差。使用称为“后向传播”的学习过程,神经网络响应于训练数据集而以减少误差的方式调节由其组成神经元应用的权重。因此,预测模型通过训练变得更加可靠。
[0003]神经网络的任务是解决比水果分类复杂得多的问题。例如,神经网络正在适用于自动驾驶汽车、自然语言处理和很多生物医学应用,如诊断图像分析和药物设计。负责解决这些困难类别问题的神经网络可能非常复杂。因此,训练需要大量训练数据,并且无数神经元需要快速访问以存储在训练过程中计算的值,以及在训练中确定并且用于推理的值。因此,复杂的神经网络需要快速、高效地访问大量高性能存储器。
附图说明
[0004]本公开在附图中以示例而非限制的方式示出。对于具有数字名称的元素,第一数字表示在其中引入该元素的图,并且类似的引用指代图内与图之间的类似元素。
[0005]图1描绘了信息处理设备100,它是一种三维(3

D)专用集成电路(ASIC),其中处理器裸片(在这种情况下是神经网络加速器裸片105)使用例如硅通孔(TSV)或Cu

Cu连接结合到四个动态随机存取存储器(DRAM)裸片110的堆叠并且与该堆叠电互连,使得堆叠充当单个IC器件。
[0006]图2是图1的设备100的实施例的平面图,其中加速器裸片105包括八个具有四个瓦片的集合(例如,集合ACC[7:4]和ACC[3:0]),这里示出了其中的四个集合,并且每个底层DRAM裸片包括八个集合200并且每个集合有八个存储体B[7:0]。
[0007]图3是图1和图2的加速器裸片105的一部分的框图,该一部分包括外部接口HBM0和加速器瓦片ACC0和ACC3。
[0008]图4A是根据实施例的3

D ASIC 400的框图,其包括加速器裸片405以及一对DRAM裸片DD0和DD1。
[0009]图4B再现了图4A的框图400,但是直接通道块DCA和DCB以及相关信号线使用粗线
突出显示以说明内部访问模式下的信号流,在内部访问模式下,加速器裸片405上的加速器瓦片(未示出)直接访问DRAM裸片DD0和DD1。
[0010]图5描绘了根据另一实施例的3

D ASIC 500。ASIC 500类似于图1的设备100,相同地标识的元素相同或相似。
[0011]图6A描绘了计算机系统600,其中具有主机处理器610的片上系统(SOC)605可以访问先前详述的类型的3

D处理设备100。
[0012]图6B描绘了实施例中的系统600,其中SOC 605经由中介层640与设备100通信,中介层640具有蚀刻在硅中的精细间隔的迹线645。
[0013]图7A描绘了地址域700,地址域700可以由主机处理器发出以加载加速器裸片105中的寄存器以控制模式。
[0014]图7B描绘了地址域705,其可以由主机处理器使用用于孔径式模式选择。
[0015]图7C描绘了两个地址域,即,可以由主机处理器发出以在HBM模式下访问DRAM页的外部模式地址域710、以及可以由内部存储器控制器使用用于类似访问的内部模式地址域715。
[0016]图8示出了用于人工神经网络的专用集成电路(ASIC)800,其架构使处理元件与存储器(例如,堆叠的存储器裸片)之间的连接距离最小化,并且从而提高了效率和性能。
[0017]图9示出了被互连以支持并发的前向和后向传播的四个加速器瓦片820。
[0018]图10包括在单个加速器瓦片820上实例化的神经网络的功能表示1000和阵列1005。
[0019]图11A描绘了处理元件1100,它是适合用作图10的每个处理元件1020的电路系统的示例。
[0020]图11B描绘了图11A的处理元件1100,其具有为支持后向传播而提供的电路元件,使用粗线宽突出显示。
[0021]图13示出了在通过图12的加速器瓦片1200的后向传播期间的信息流。
具体实施方式
[0022]图1描绘了信息处理设备100,它是一种三维(3

D)专用集成电路(ASIC),其中处理器裸片(在这种情况下是神经网络加速器裸片105)使用例如硅通孔(TSV)或Cu

Cu连接结合到四个动态随机存取存储器(DRAM)裸片110的堆叠并且与该堆叠电互连,使得堆叠充当单个IC器件。加速器裸片105包括划分为四个HBM子接口120的高带宽存储器(HBM)接口HBM0。每个子接口120包括提供到水平存储器裸片数据端口125的连接122的通路域(包含TSV的区域),水平存储器裸片数据端口125通过水平(裸片内)连接130延伸到DRAM裸片110中的一个DRAM裸片上的八个存储体B[7:0]。水平存储器裸片数据端口125和相应连接130在每个DRAM裸片110上被加阴影,以突出显示用于对相应DRAM裸片110上的八个存储体B[7:0]的集合进行裸片内访问的信号路径,每个存储体是数据存储元件的独立可寻址阵列。接口HBM0允许主机处理器(未示出)存储训练数据并且从DRAM裸片110中检索推理模型和输出数据。加速器裸片105还包括四个处理瓦片,即,神经网络加速器瓦片ACC[3:0],每个神经网络加速器瓦片包括到每个底层DRAM裸片110上的竖直(裸片间)存储器裸片数据端口140的通路域135。瓦片ACC[3:0]和底层存储体B[7:0]被布局以建立相对较短的裸片间连接145。因此,存
储体堆叠(例如,四个存储体对B[4,0])形成加速器瓦片130服务中的高带宽存储器的竖直集合。因此,设备100支持针对外部访问而优化的DRAM特定HBM存储器通道和为支持用于训练和推理的访问而优化的特定于加速器的存储器通道。
[0023]HBM DRAM支持存储体分组,这是一种通过交错来自属于不同存储体组的存储体的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种集成电路(IC)器件,包括:处理器裸片,具有至少一个处理瓦片;存储器裸片,与所述处理器裸片堆叠并且结合到所述处理器裸片,每个存储器裸片定义存储器裸片平面并且具有:存储体,在所述存储器裸片平面中以存储体间距间隔开;裸片间数据端口,连接到所述存储器裸片上的所述存储体中的至少一个存储体;以及裸片内数据端口,连接到所述存储器裸片上的所述存储体;以及裸片间数据连接,从所述处理器裸片的所述处理瓦片延伸到所述存储器裸片的所述裸片间数据端口。2.根据权利要求1所述的器件,所述处理器裸片还包括存储器接口,所述存储器结构被划分成子接口,每个子接口连接到所述存储器裸片中的相应存储器裸片的所述裸片内数据端口。3.根据权利要求1所述的器件,其中所述裸片间数据端口和所述裸片内数据端口中的至少一者包括通路域。4.根据权利要求1所述的器件,所述处理器裸片还具有第一通路域,所述第一通路域电连接到所述存储器裸片中的第一存储器裸片的所述裸片内数据端口、并且与所述存储器裸片中的第二存储器裸片的所述裸片内数据端口电隔离。5.根据权利要求4所述的器件,所述处理器裸片还具有第二通路域,所述第二通路域电连接到所述存储器裸片中的所述第二存储器裸片的所述裸片内数据端口、并且与所述存储器裸片中的所述第一存储器裸片的所述裸片内数据端口电隔离。6.根据权利要求1所述的器件,还包括基础裸片,所述基础裸片结合到所述处理器裸片和所述存储器裸片并且通信耦合到所述裸片内数据端口。7.根据权利要求1所述的器件,其中所述存储体中的每个存储体占据体区域,并且所述至少一个处理瓦片中的一个瓦片占据瓦片区域,所述瓦片区域基本等于具有所有数目的所述体区域的区域。8.根据权利要求7所述的器件,其中所述一个瓦片具有瓦片边界,从法线于所述处理器裸片的角度,所述瓦片边界包含具有所有数目的所述体区域的所述区域。9.根据权利要求1所述的器件,所述处理器裸片还具有控制器,用以管理所述处理瓦片与所述存储器裸片的裸片间数据端口之间的通信。10.根据权利要求1所述的器件,每个存储器裸片具有第二裸片间数据端口,所述第二裸片间数据端口连接到所述存储体中的一个存储体,所述一个存储体不同于首次提及的所述裸片间数据端口所连接到的所述至少一个存储体。11.根据权利要求10所述的器件,其中所述存储器裸片中的每个存储器裸片上的所述裸片内数据端口连接到首次提及的所述裸片间数据端口和第二裸片间数据端口所连接到的所述存储体中的存储体。12.根据权利要求1所述的器件,所述处理器裸片包括互连处理元件阵列,包括上游的处理元件和下游的处理元件,每个处理元件包括:前向传播输入端口,用以接收前向部分结果;前向传播处理器,用以更新所述前向部分结果;
前向传播输出端口,用以传输已更新的所述前向部分结果;后向传播输入端口,用以接收后向传播部分结果;后向传播处理器,用以更新所述后向传播部分结果;以及后向传播输出端口,用以传输已更新的所述后向传播部分结果。13.根据权利要求12所述的器件,其中所述前向传播处理器和所述后向传播处理器分别并发地更新所述前向部分结果和所述后向传播部分...

【专利技术属性】
技术研发人员:T
申请(专利权)人:拉姆伯斯公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1