能够重新使用数据的神经处理单元及其方法技术

技术编号:35260304 阅读:24 留言:0更新日期:2022-10-19 10:19
一种神经处理单元包括:模式选择器,其被配置成选择第一模式或第二模式;和处理元件(PE)阵列,其在所述第一模式和所述第二模式中的一者下操作并且包括以PE行和PE列布置的多个处理元件,所述PE阵列被配置为分别接收第一输入数据的输入和第二输入数据的输入。在所述第二模式下,所述第一输入数据沿所述PE阵列的PE列方向输入,并且沿所述PE列方向传输,同时延迟特定时钟周期数,而所述第二输入数据被广播到所述第一输入数据延迟所述特定数量的时钟周期输入的所述PE阵列的所述多个处理元件。钟周期输入的所述PE阵列的所述多个处理元件。钟周期输入的所述PE阵列的所述多个处理元件。

【技术实现步骤摘要】
能够重新使用数据的神经处理单元及其方法
相关申请的交叉引用本申请要求于2021年4月14日向韩国知识产权局提交的韩国专利申请 No.2021

0048753以及于2022年2月11日向韩国知识产权局提交的韩国专利 申请No.10

2022

0018340的优先权,其公开内容通过引用并入本文。


[0001]本公开涉及一种能够重新使用数据的神经处理单元(NPU)以及 一种操作该NPU的方法。更具体地,本公开涉及在逐深度卷积操作期间重新 使用权重的NPU和NPU操作方法。

技术介绍

[0002]人类具备可以进行识别、分类、推理、预测和控制/决策的智能。 人工智能(AI)是指人工模仿人类智能。
[0003]人脑由称为神经元的众多神经细胞组成,每个神经元通过称为 突触的连接件而与成百上千个其他神经元相连。为了模仿人类智能,对生物 神经元的操作原理和神经元之间的连接关系进行的建模被称为人工神经网络 (ANN)模型。也就是说,人工神经网络是一种以层状结构连接模仿神经元的 节点的系统。
[0004]这些人工神经网络模型根据层数分为“单层神经网络”和“多 层神经网络”。
[0005]一般的多层神经网络由输入层、隐藏层和输出层组成,其中(1) 输入层是接收外部数据的层,输入层的神经元的数量与输入变量的数量相同, (2)隐藏层位于输入层和输出层之间,从输入层接收信号,提取特征,并将其 传输到输出层,以及(3)输出层接收来自隐藏层的信号并将其输出到外部。神 经元之间的输入信号乘以值介于零和一之间的每个连接强度,然后求和。如 果该和大于神经元阈值,则神经元被激活并通过激活函数实现为输出值。
[0006]同时,为了实现更高的人工智能,隐藏层数增加的人工神经网 络被称为深度神经网络(DNN)。
[0007]DNN有多种类型,但众所周知,卷积神经网络(CNN)易于从输 入数据中提取特征并识别特征模式。
[0008]CNN是指通过矩阵型输入信号和矩阵型权重内核的卷积来实现 各层神经元之间的操作的网络结构。
[0009]卷积神经网络是神经网络,其功能类似于人脑视觉皮层中的图 像处理。众所周知,卷积神经网络适用于对象分类和检测。
[0010]参考图3,卷积神经网络以卷积通道和池化通道交替重复的形 式配置。在卷积神经网络中,大部分计算时间都被卷积操作占用。
[0011]卷积神经网络通过经由矩阵型内核提取每个通道的图像特征并 且经由池化提供例如动态或失真之类的动态平衡来推理对象。对于每个通道, 通过输入数据和内核的卷积得到特征图,并且应用例如修正线性单元(ReLU) 之类的激活函数来生成对应通道的激活
图。然后可以应用池化。
[0012]实际对模式进行分类的神经网络位于特征提取神经网络的末端, 并且称为全连接层。在卷积神经网络的计算处理中,大部分计算都是通过卷 积或矩阵乘法进行的。
[0013]这时,从存储器中相当频繁地读取必要权重内核。卷积神经网 络的很大一部分操作需要时间从存储器中读取与每个通道对应的权重内核。
[0014]存储器可分为主存储器、内部存储器和片上存储器。每个存储 器由多个存储器单元组成,存储器的每个存储器单元具有唯一的存储器地址。 当神经处理单元读取存储在主存储器中的权重或参数时,可能会出现几个时 钟周期的延迟,直到访问与该存储器地址对应的存储单元。该延迟时间可以 包括列地址选通(CAS)延迟和行地址选通(RAS)延迟。
[0015]因此,存在一个问题,即从主存储器中读取必要的参数并执行 卷积所消耗的时间和功率非常大。

技术实现思路

[0016]本公开的专利技术人已经认识到以下事项。
[0017]首先,本公开的专利技术人已经认识到,在人工神经网络模型的推 理过程中,神经处理单元(NPU)频繁地从主存储器中读取ANN模型的特定层 的特征图或权重内核。
[0018]本公开的专利技术人已经认识到,从主存储器到NPU的ANN模型 的特征图或内核的读取操作很慢并且消耗大量能量。
[0019]本公开的专利技术人已经认识到,增加对片上存储器或NPU内部存 储器的访问,而不是对主存储器的访问,可以提高处理速度并降低能耗。
[0020]本公开的专利技术人已经认识到,在具有特定结构的处理元件阵列 中,处理元件阵列的PE利用率(%)在特定卷积操作中迅速下降。例如,当处 理元件阵列中有一百个处理元件时,如果只有五十个处理元件在操作,则处 理元件阵列的利用率为50%。
[0021]本公开的专利技术人已经认识到,在处理元件阵列的特定结构中的 逐深度卷积操作(depth

wise convolution operation)期间,数据重新使用可能是 不可能的,因此处理元件阵列的利用率迅速降低。
[0022]特别地,本公开的专利技术人已经认识到,在逐深度卷积的情况下, 与标准或逐点卷积相比,处理元件阵列的利用率降低,逐深度卷积所需的资 源、功率和处理时间会变得低效,以至于它们变得与标准或逐点卷积操作基 本相似,即使逐深度卷积的计算量与标准或逐点卷积的计算量相比相对较小 也如此。
[0023]特别地,本公开的专利技术人已经认识到,即使逐深度卷积的计算 量相对较小,NPU的性能也可能由于处理元件阵列的低利用率而成为瓶颈。
[0024]相应地,本公开提供了一种神经处理单元,其能够在NPU中的 逐深度卷积操作期间重新使用权重,从而减少主存储器读取操作的数量并降 低功耗。本公开还提供了一种操作神经处理单元的方法。
[0025]为了解决上述问题,提供了根据本公开的示例的神经处理单元。
[0026]根据本公开的一个方面,提供了一种神经处理单元(NPU),其 包括:模式选择器,其被配置成选择第一模式或第二模式;和处理元件(PE) 阵列,其在所述第一模式和所述第二模式中的一者下操作并且包括以PE行和PE列布置的多个处理元件,所述PE阵列被配置为
分别接收第一输入数据的 输入和第二输入数据的输入。在所述第二模式下,所述第一输入数据可以沿 所述PE阵列的PE列方向输入,并且可以沿所述PE列方向传输,同时延迟 特定时钟周期数,而所述第二输入数据可以被广播到所述第一输入数据延迟 所述特定数量的时钟周期输入的所述PE阵列的所述多个处理元件。
[0027]所述PE阵列还可以被配置为在所述第一模式下执行逐点卷积 操作。
[0028]所述PE阵列还可以被配置为在所述第二模式下执行逐深度卷 积操作。
[0029]所述特定时钟周期数可以基于人工神经网络模型的权重内核的 大小或卷积的步幅值来确定。
[0030]在所述第一模式下,所述PE阵列的每一PE列的所述多个处理 元件可以被流水线化以传送所述第一输入数据。
[0031]在所述第一模式下,所述第二输入数据可以被单播到所述PE 阵列的每一PE行的所述多个处理元件中的每一个。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经处理单元(NPU),其包括:模式选择器,其被配置成选择第一模式或第二模式;和处理元件(PE)阵列,其在所述第一模式和所述第二模式中的一者下操作并且包括以PE行和PE列布置的多个处理元件,所述PE阵列被配置为分别接收第一输入数据的输入和第二输入数据的输入,其中,在所述第二模式下,所述第一输入数据沿所述PE阵列的PE列方向输入,并且沿所述PE列方向传输,同时延迟特定时钟周期数,而所述第二输入数据被广播到所述第一输入数据延迟所述特定数量的时钟周期输入的所述PE阵列的所述多个处理元件。2.根据权利要求1所述的NPU,其中,所述PE阵列还被配置为在所述第一模式下执行逐点卷积操作。3.根据权利要求1所述的NPU,其中,所述PE阵列还被配置为在所述第二模式下执行逐深度卷积操作。4.根据权利要求1所述的NPU,其中,所述特定时钟周期数基于人工神经网络模型的权重内核的大小或卷积的步幅值来确定。5.根据权利要求1所述的NPU,其中,在所述第一模式下,所述PE阵列的每一PE列的所述多个处理元件被流水线化以传送所述第一输入数据。6.根据权利要求1所述的NPU,其中,在所述第一模式下,所述第二输入数据被单播到所述PE阵列的每一PE行的所述多个处理元件中的每一个。7.根据权利要求1所述的NPU,其中所述PE阵列还包括延迟缓冲器,所述延迟缓冲器被配置为通过将所述第一输入数据延迟所述特定数量的时钟周期来输出所述第一输入数据。8.根据权利要求1所述的NPU,其中,所述PE阵列还被配置为基于人工神经网络模型的权重内核的大小来确定所述特定数量的时钟周期。9.根据权利要求1所述的NPU,其中,在所述第二模式下,所述第二输入数据通过具有分支的信号线被广播到所述PE阵列的PE列,延迟所述特定数量的时钟周期的所述第一输入数据通过所述分支被施加到所述PE列的所述信号线。10.根据权利要求1所述的NPU,其中,在所述第二模式下,所述PE阵列的所述PE行由第一组PE行和第二组PE行组成,所述第一组PE行被配置为基于人工神经网络模型的权重内核的大小启用,所述第二组PE行排除所述第一组PE行并且被配置为停用。11.根据权利要求1所述的NPU,其中所述PE阵列还包括:第一多路复用器,其设置在所述PE行中的至少一些内;第二多路复用器,其设置在所述PE行中的所述至少一些的输入部分处;以及延迟缓冲器,其设置在所述PE行中的所述至少一些内。12.一种神经处理单元(NPU),其包...

【专利技术属性】
技术研发人员:朴正扶柳汉硕
申请(专利权)人:蒂普爱可斯有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1