在神经网络中执行重计算的方法和计算设备技术

技术编号：34188655 阅读：21 留言：0更新日期：2022-07-17 14:52

本公开提供了一种在神经网络中执行重计算的方法和计算设备。该方法包括：在所述神经网络的一个中间层，在前向方向上，基于装载所述中间层的一个中间子层的输入数据的成本、利用所述中间子层的输入数据计算输出数据的成本以及装载所述中间子层的输出数据的成本来确定是否存储所述中间子层的输出数据；如果确定存储所述中间子层的输出数据，在得到所述中间子层的输出数据之后将所述中间子层的输出数据缓存到所述计算核的片上缓存和/或存储到片外存储器中；以及如果确定不存储所述中间子层的输出数据，在得到所述中间子层的输出数据之后将所述中间子层的输出数据缓存到所述计算核的片上缓存或寄存器，以供下一中间层或下一中间子层立刻使用。一中间子层立刻使用。一中间子层立刻使用。

全部详细技术资料下载

【技术实现步骤摘要】
在神经网络中执行重计算的方法和计算设备

[0001]本公开概括而言涉及神经网络计算领域，更具体地，涉及一种在神经网络中执行重计算的方法和计算设备。

技术介绍

[0002]当前，神经网络已经广泛应用于图像分类、对象识别等领域。在这些领域中，可以利用预先获取的图像样本等对神经网络进行训练，以得到相应的训练后的神经网络模型。该训练后的神经网络模型可以用于对新的图像数据进行识别或分类等。
[0003]神经网络的训练是一个复杂的过程，网络的前面层的微小的改变都会累积放大到后面的层，从而前面层训练参数的更新将导致后面层输入数据分布的变化。为此，在神经网络中引入了批量归一化(Batch Normalization,BN)的概念，其中在对每一层的输入数据进行处理之前，首先对这些输入数据进行批量归一化，以将输入数据的特征强制性地变换到均值为0、方差为1的数学模型下。
[0004]神经网络的各个层的尺寸可能不同，在同一层计算该层的反向传播激励和反向传播权重可能造成运算负载不稳定以及对存储空间的需求不平衡。
[0005]此外，在前向方向上总是存储各个子层的输出数据不仅占用较多存储空间，而且有可能增大反向方向上读取这些输出数据的时间开销。

技术实现思路

[0006]针对上述问题，本公开提供了一种在神经网络中执行重计算的方法，其通过在前向方向上确定是否对中间子层的输出数据进行缓存，使得反向方向上的时间开销最小。
[0007]根据本公开的一个方面，提供了在神经网络中执行重计算的方法。该方法包括：在...

【技术保护点】

【技术特征摘要】
1.一种在神经网络中执行重计算的方法，包括：在所述神经网络的一个中间层，在前向方向上，基于装载所述中间层的一个中间子层的输入数据的成本、利用所述中间子层的输入数据计算输出数据的成本以及装载所述中间子层的输出数据的成本来确定是否存储所述中间子层的输出数据；如果确定存储所述中间子层的输出数据，在得到所述中间子层的输出数据之后将所述中间子层的输出数据缓存到所述计算核的片上缓存和/或存储到片外存储器中；以及如果确定不存储所述中间子层的输出数据，在得到所述中间子层的输出数据之后将所述中间子层的输出数据缓存到所述计算核的片上缓存或寄存器，以供下一中间层或下一中间子层立刻使用。2.如权利要求1所述的方法，还包括：存储所述中间子层之前的另一中间子层的输出数据。3.如权利要求2所述的方法，还包括：在所述神经网络的反向方向上，利用所存储的所述另一中间子层的输出数据计算所述中间子层的输出数据。4.如权利要求1所述的方法，其中所述中间子层是所述中间层的激活子层，并且所述另一中间子层是所述中间层的卷积子层或者BN子层。5.如权利要求4所述的方法，其中在所述另一中间子层是所述中间层的卷积子层的情况下，所述方法还包括：在所述神经...

【专利技术属性】
技术研发人员：ꢀ七四专利代理机构，
申请(专利权)人：上海壁仞智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人