神经推理处理器的中央调度器和指令分配器制造技术

技术编号:26428922 阅读:32 留言:0更新日期:2020-11-20 14:27
提供了神经推理处理器。在各种实施例中,处理器包括多个核。每个核包括神经计算单元、激活存储器和局部控制器。所述神经计算单元适于将多个突触权重应用于多个输入激活以产生多个输出激活。激活存储器适于存储输入激活和输出激活。该局部控制器适于将输入激活从该激活存储器加载到该神经计算单元并且用于将多个输出激活从该神经计算单元存储到该激活存储器。该处理器包括神经网络模型存储器,其适于存储包括多个突触权重的网络参数。该处理器包括全局调度器,该全局调度器被操作地耦合至该多个核,适于将突触权重从神经网络模型存储器提供给每个核。

【技术实现步骤摘要】
【国外来华专利技术】神经推理处理器的中央调度器和指令分配器
技术介绍
本公开的实施例涉及神经网络处理组件,并且更具体地,涉及用于神经推理处理器的中央调度器和指令分配器。
技术实现思路
根据本公开的实施例,提供了神经推理处理器。一种处理器包括多个核。每个核包括神经计算单元、激活存储器和局部控制器。该神经计算单元适于将多个突触权重应用于多个输入激活以产生多个输出激活。激活存储器适于存储输入激活和输出激活。该局部控制器适于将输入激活从该激活存储器加载到该神经计算单元并且用于将该多个输出激活从该神经计算单元存储到该激活存储器。该处理器包括神经网络模型存储器,其适于存储多个突触权重。该处理器包括全局调度器,该全局调度器可操作地耦合至该多个核,适于将突触权重从神经网络模型存储器提供给每个核。根据本公开的实施例,提供了神经推理处理器。提供了一种神经计算单元。该神经计算单元被适于将多个突触权重应用于多个输入激活以产生多个输出激活。神经网络模型存储器适于存储多个突触权重。激活存储器适于存储输入激活和输出激活。调度器被操作地耦合到神经计算单元、神经网络模型存储器和激活存储器。调度器适于:将所述突触权重从所述神经网络模型存储器加载到所述神经计算单元;将所述输入激活从所述激活存储器加载到所述神经计算单元;以及将来自神经计算单元的多个输出激活存储到激活存储器。根据本公开的实施例,提供了用于操作神经推理处理器的方法和计算机程序产品。全局调度器将来自神经网络模型存储器的突触权重提供给多个核中的每个核。每个核的局部控制器将来自该核的激活存储器的输入激活加载到该核的神经计算单元。每个核的神经计算单元将该多个突触权重应用于该多个输入激活以产生多个输出激活。每个核的局部控制器将来自该核的神经计算单元的多个输出激活存储到该核的激活存储器。附图说明现在将参考附图仅通过示例的方式描述本专利技术的实施例,在附图中:图1示出了根据本公开的实施例的示例性推理处理单元(IPU)。图2是图1的IPU的流水线时序图。图3示出了根据本公开的实施例的多核推理处理单元(IPU)。图4示出了根据本公开的实施例的多核推理处理单元(IPU)。图5示出了根据本公开的实施例的示例性IPU片上网络(NoC)。图6示出了根据本公开的实施例的示例性IPU片上网络(NoC)。图7示出了根据本公开的实施例的示例性IPU片上网络(NoC)。图8示出了根据本专利技术的实施例的图7的IPU的示例性存储器配置。图9示出了根据本公开的实施例的操作神经推理处理器的方法。图10描述了根据本专利技术实施例的计算节点。具体实施方式人工神经元是其输出是其输入的线性组合的非线性函数的数学函数。如果一个神经元的输出是另一个神经元的输入,则两个神经元被连接。权重是对一个神经元的输出与另一个神经元的输入之间的连接的强度进行编码的标量值。神经元通过将非线性激活函数应用于其输入的加权和来计算其输出,称为激活。加权和是通过将每个输入乘以相应的权重并累加乘积而计算的中间结果。部分和是输入子集的加权和。所有输入的加权和可以通过累加一个或多个部分和而分阶段被计算。神经网络是一个或多个神经元的集合。神经网络通常被分成称为层的神经元组。层是一个或多个神经元的集合,所述一个或多个神经元全部从相同层接收输入并且全部向相同层发送输出,并且通常执行类似的功能。输入层是从神经网络外部的源接收输入的层。输出层是向神经网络外部的目标发送输出的层。所有其它层是中间处理层。多层神经网络是具有多于一层的神经网络。深度神经网络是具有多个层的多层神经网络。张量是数值的多维阵列。张量块是张量中的元素的连续子阵列。每个神经网络层与权重张量、参数张量、输入张量、输出张量和中间张量相关。权重张量包含将输入连接到层的所有权重。参数张量包含控制层中的神经元激活函数的所有参数。输入张量包含层消耗的作为输入的所有数据。输出张量包含层计算的作为输出的所有数据。中间张量包含层产生的作为中间计算的任何数据,例如部分和。神经核是计算输出张量的一个块的可平铺计算单元。神经核具有M个输入和N个输出。在各种实施例中M=N。为了计算输出张量块,神经核将M×1个输入张量块与M×N个权重张量块相乘,并将乘积累加为加权和,该加权和被存储在1×N个中间张量块中。U×N个参数张量块包含指定N个神经元激活函数中的每个神经元激活函数的U个参数,所述神经元激活函数被应用于中间张量块以产生1×N个输出张量块。多个神经核可以平铺在神经核阵列中。在一些实施方案中,阵列是2维的。神经网络模型是一组常数,其共同指定由神经网络执行的整个计算,包括神经元之间的连接图以及每个神经元的权重和激活函数参数。训练是修改神经网络模型以执行期望的函数的过程。推理是将神经网络应用于输入以产生输出的过程,不修改神经网络模型。推理处理单元是执行神经网络推理的一类处理器。神经推理芯片是推理处理单元的特定物理实例。参考图1,根据本公开的实施例示出了示例性推理处理单元(IPU)。IPU100包括用于神经网络模型的存储器101。如上所述,神经网络模型可包括要计算的神经网络的突触权重。IPU100包括可以是瞬态激活存储器102。激活存储器102可以被划分成输入和输出区域,并且存储神经元激活以供处理。IPU100包括神经计算单元103,其加载有来自模型存储器101的神经网络模型。在每个计算步骤之前从激活存储器102提供输入激活。来自神经计算单元103的输出被写回到激活存储器102以在同一或另一神经计算单元上处理。在各种实施例中,调度器104被包括在IPU100中。在这样的实施例中,IPU中的所有操作由调度器引导。如下面所阐述的,在各种实施例中可以提供中央和/或分布式调度器。全局调度器可以被称为芯片微引擎,而局部调度器可以被称为核微引擎或局部控制器。在各种实施例中,调度器包括一个或多个微引擎、微控制器、状态机、CPU或其他控制器。参考图2,为图1的IPU提供了流水线时序图,在111,计算指令从模型存储器101加载到神经计算单元103。在112处,将参数(例如,神经网络/突触权重)从模型存储器101加载到神经计算单元103。在113,神经网络激活数据从激活存储器102被加载到神经计算单元103。如上所述,激活被提供给由模型定义的特定神经网络的轴突,并且可以源自相同的或另一神经计算单元,或者源自系统外部。在114处,神经计算单元103执行计算以生成输出神经元激活。具体地,该计算包括将输入突触权重应用于输入激活。应当理解,各种方法可用于执行这种计算,包括在硅树突中以及矢量乘法单元。在115处,将来自计算的结果存储在激活存储器102中。如图所示,这些阶段可以是流水线的,以便提供神经计算单元的有效使用。参考图3,根据本公开的实施例示出了多核推理处理单元(IPU)。IPU300包括用于神经网络模型的模型存储器301。如上所述,神经网络模型可包括要计算的神经网络的突触权重。IPU300包括可以是瞬态的激活存本文档来自技高网...

【技术保护点】
1.一种系统,包括:/n多个核,每个核包括/n神经计算单元,所述神经计算单元适于将多个突触权重应用于多个输入激活以产生多个输出激活,/n激活存储器,适于存储所述输入激活和所述输出激活,/n局部控制器,所述局部控制器适于将所述输入激活从所述激活存储器加载到所述神经计算单元并且将所述多个输出激活从该神经计算单元存储到所述激活存储器;/n神经网络模型存储器,适于存储所述多个突触权重;/n全局调度器,被操作地耦合至所述多个核,适于将来自所述神经网络模型存储器的所述突触权重提供给每个核。/n

【技术特征摘要】
【国外来华专利技术】20180427 US 15/965,2481.一种系统,包括:
多个核,每个核包括
神经计算单元,所述神经计算单元适于将多个突触权重应用于多个输入激活以产生多个输出激活,
激活存储器,适于存储所述输入激活和所述输出激活,
局部控制器,所述局部控制器适于将所述输入激活从所述激活存储器加载到所述神经计算单元并且将所述多个输出激活从该神经计算单元存储到所述激活存储器;
神经网络模型存储器,适于存储所述多个突触权重;
全局调度器,被操作地耦合至所述多个核,适于将来自所述神经网络模型存储器的所述突触权重提供给每个核。


2.根据权利要求1所述的系统,其中,所述全局调度器适于向每个核提供局部控制器指令。


3.根据权利要求1所述的系统,其中所述全局调度器向所述核中的每个核提供相同的突触权重。


4.根据权利要求2所述的系统,其中所述全局调度器向所述核中的每个核提供相同的局部控制器指令。


5.根据权利要求1所述的系统,其中所述全局调度器向所述核中的至少一些核提供不同的突触权重。


6.根据权利要求2所述的系统,其中所述全局调度器向所述核中的至少一些核提供不同的局部控制器指令。


7.根据权利要求1所述的系统,还包括被耦合到所述多个核的网络。


8.根据权利要求7所述的系统,其中所述全局调度器经由所述网络来提供所述突触权重。


9.根据权利要求7所述的系统,其中所述全局调度器经由所述网络向每个核提供局部控制器指令。


10.根据权利要求7所述的系统,其中所述网络包括树形网络。


11.根据权利要求7所述的系统,其中所述网络包括行广播网络。


12.根据权利要求11所述的系统,其中所述网络包括多个行,每一行被连接到所述多个核的子集。


13.根据权利要求12所述的系统,其中每一行包括可操作用于在广播输入和特定行输入之间进行选择的互连。


14.根据权利要求13所述的系统,其中所述互连由所述全局调度器可操作。


15.根据权利要求1所述的系统,...

【专利技术属性】
技术研发人员:A·S·卡西迪M·弗利克纳P·达塔H·彭纳R·阿普斯瓦米泽田润J·V·阿瑟D·莫德哈S·K·艾瑟B·S·塔巴J·克拉莫
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1