当前位置: 首页 > 专利查询>鹏城实验室专利>正文

一种神经网络训练及推理方法、装置、终端及存储介质制造方法及图纸

技术编号:37137402 阅读:19 留言:0更新日期:2023-04-06 21:38
本发明专利技术公开了一种神经网络训练及推理方法、装置、终端及存储介质,包括:对正向传播的网络节点信息进行映射处理,并根据映射后的数值进行伯努利过程采样,将得到的随机二值化数值作为下一层网络的输入;对激活函数的导数进行伯努利过程采样,得到随机二值化后的激活函数的导数;对下一层网络的反向传播的误差进行符号化处理,并根据符号化处理后的值和随机二值化后的导数计算本层网络的误差信息;根据本层网络的误差信息和上一层网络产生的随机二值化输出对本层网络进行训练;根据逐层传播的随机二值化数值进行神经网络的推理。本发明专利技术采用随机二值化的信号进行正向传播和符号化的误差进行反向传播的神经网络,降低计算资源且提高了识别精度。提高了识别精度。提高了识别精度。

【技术实现步骤摘要】
一种神经网络训练及推理方法、装置、终端及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及的是一种神经网络训练及推理方法、装置、终端及存储介质。

技术介绍

[0002]人工神经网络(Artificial Neural Network,以下简称神经网络)的技术进步是近年来科技发展的重要推动力。神经网络广泛应用于对图像、声音、文字等信息的处理过程中。
[0003]神经网络中通常包含多层相互连接的非线性网络节点,节点之间的连接强度称为权重。神经网络的所需处理的信息从输入节点输入,在神经网络中逐层传播,最终到达输出层,这一过程称为信息的正向传播。信息的正向传播是神经网络对输入信息的处理过程,又称推理过程。神经网络可以通过特定的算法和流程调整网络中连接各个节点之间的权重,从而使推理结果尽可能地准确,这一过程称为训练或学习过程。
[0004]误差反向传播(Error Backpropagation)和梯度下降算法(Gradient Descent)是实现神经网络训练的重要技术专利技术。基于误差反向传播和梯度下降算法的神经网络训练,包含以下4个步骤:
[0005]1)将训练集中的样本数据输入到神经网络中进行信息的正向传播,获得每个节点的状态信息,并获得最终输出结果;
[0006]2)输出结果与样本数据的标记信息进行对比,获得输出误差(Error);
[0007]3)将输入误差从网络终端作为输入,由神经网络最后一层向第一层反向传播;
[0008]4)利用正向传播的信息和反向传播的误差,计算获得神经网络最终输出结果相对于网络中连接权重的梯度信息,并依据梯度下降算法调整网络中的连接权重。神经网络的推理过程仅包含上述第一个步骤,即信息的正向传播。
[0009]在传统神经网络训练和推理中,正向传播的信息和反向传播的误差需要采用高精度的数值来描述。但是,高精度数值在计算机中的存储和处理开销较大,造成了神经网络训练对算力和能耗的较高需求。算力和能耗问题成为神经网络进一步广泛应用的瓶颈。此外,当利用忆阻器阵列实现神经网络加速时,高精度数值所描述的信息和误差需要复杂的外围电路来完成,增加了硬件加速神经网络运算的成本和功耗。
[0010]为解决或缓解神经网络训练和推理过程中的算力瓶颈和能耗瓶颈问题,人们专利技术了多种技术方法。主要包括神经网络量化(Neural Network Quantization)技术和神经网络二值化(Neural Network Binarization)技术;其中,神经网络量化在一定程度上降低了神经网络推理过程中对算力的需求,但是降低了神经网络的识别精度,而二值化网络的训练过程中,反向传播的误差仍采用高精度的数值来描述,在加速训练的过程中仍然存在神经网络识别精度下降的问题。
[0011]因此,现有技术还有待改进。

技术实现思路

[0012]本专利技术要解决的技术问题在于,针对现有技术缺陷,本专利技术提供一种神经网络训练及推理方法、装置、终端及存储介质,以解决现有的神经网络训练和推理方法在算力瓶颈场景中存在的识别精度下降的技术问题。
[0013]本专利技术解决技术问题所采用的技术方案如下:
[0014]第一方面,本专利技术提供一种神经网络训练及推理方法,包括:
[0015]根据激活函数对正向传播的网络节点信息进行映射处理,并根据映射后的数值进行伯努利过程采样,得到本层网络产生的随机二值化数值,将得到的随机二值化数值作为下一层网络的输入;
[0016]对所述激活函数的导数进行伯努利过程采样,得到随机二值化后的激活函数的导数;
[0017]对所述下一层网络的反向传播的误差进行符号化处理,并根据符号化处理后的值和所述随机二值化后的激活函数的导数计算所述本层网络的误差信息;
[0018]根据所述本层网络的误差信息和上一层网络产生的随机二值化输出对本层网络进行训练;
[0019]根据逐层传播的随机二值化数值进行神经网络的推理。
[0020]在一种实现方式中,所述根据激活函数对正向传播的网络节点信息进行映射处理,之前包括:
[0021]获取上一层网络中连接到所述本层网络的各节点的输出信息,得到所有连接所述本层网络的节点的输入;其中,所述本层网络的节点的输入为所述上一层网络的经过随机二值化处理后的输出;
[0022]将所有连接所述本层网络的节点的输入与对应的权重进行相乘,并将得到的所有乘积进行求和,得到所述本层网络的节点的输入信息。
[0023]在一种实现方式中,所述根据激活函数对正向传播的网络节点信息进行映射处理,并根据映射后的数值进行伯努利过程采样,得到本层网络产生的随机二值化数值,将得到的随机二值化数值作为下一层网络的输入,包括:
[0024]根据所述激活函数对所述本层网络的输入信息进行映射处理,将所述本层网络的输入信息映射成0至1之间的数值;
[0025]以映射得到的数值为概率进行伯努利过程采样,获得对应的随机二值化网络节点的输出结果;其中,所述输出结果为所述本层网络产生的随机二值化数值;
[0026]将获得的随机二值化网络节点的输出结果作为所述下一层网络的输入。
[0027]在一种实现方式中,所述激活函数为挤压函数,包括:Logistic函数、误差函数、剪切式整流线性单元函数以及对称剪切式整流线性单元函数中的一种或组合。
[0028]在一种实现方式中,所述对所述激活函数的导数进行伯努利过程采样,得到随机二值化后的激活函数的导数,包括:
[0029]获取所述激活函数的导数;
[0030]以获得的导数为概率进行伯努利过程采样,获得对应的随机二值化网络节点的输出结果;
[0031]将获得的随机二值化网络节点的输出结果作为反向传播过程的误差信息计算值。
[0032]在一种实现方式中,所述以获得的导数为概率进行伯努利过程采样,获得对应的随机二值化网络节点的输出结果,之前包括:
[0033]对所述激活函数的导数的幅值进行等比例缩放或近似化处理。
[0034]在一种实现方式中,所述对所述下一层网络的反向传播的误差进行符号化处理,并根据符号化处理后的值和所述随机二值化后的激活函数的导数计算所述本层网络的误差信息,包括:
[0035]对所述下一层网络的反向传播的误差进行符号化处理,获得符号化的误差;
[0036]将获得的符号化的误差与所述随机二值化后的激活函数的导数相乘,得到所述本层网络的误差信息;
[0037]其中,所述本层网络的误差信息的取值为

1、0或1。
[0038]在一种实现方式中,所述根据所述本层网络的误差信息和上一层网络产生的随机二值化输出对本层网络进行训练,包括:
[0039]根据所述本层网络的误差信息和所述上一层网络产生的随机二值化输出,计算得到网络整体输出误差函数相对于所述本层网络中权重变化的梯度;
[0040]根据所述权重变化的梯度和梯度下降算法调本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络训练及推理方法,其特征在于,包括:根据激活函数对正向传播的网络节点信息进行映射处理,并根据映射后的数值进行伯努利过程采样,得到本层网络产生的随机二值化数值,将得到的随机二值化数值作为下一层网络的输入;对所述激活函数的导数进行伯努利过程采样,得到随机二值化后的激活函数的导数;对所述下一层网络的反向传播的误差进行符号化处理,并根据符号化处理后的值和所述随机二值化后的激活函数的导数计算所述本层网络的误差信息;根据所述本层网络的误差信息和上一层网络产生的随机二值化输出对本层网络进行训练;根据逐层传播的随机二值化数值进行神经网络的推理。2.根据权利要求1所述的神经网络训练及推理方法,其特征在于,所述根据激活函数对正向传播的网络节点信息进行映射处理,之前包括:获取上一层网络中连接到所述本层网络的各节点的输出信息,得到所有连接所述本层网络的节点的输入;其中,所述本层网络的节点的输入为所述上一层网络的经过随机二值化处理后的输出;将所有连接所述本层网络的节点的输入与对应的权重进行相乘,并将得到的所有乘积进行求和,得到所述本层网络的节点的输入信息。3.根据权利要求1所述的神经网络训练及推理方法,其特征在于,所述根据激活函数对正向传播的网络节点信息进行映射处理,并根据映射后的数值进行伯努利过程采样,得到本层网络产生的随机二值化数值,将得到的随机二值化数值作为下一层网络的输入,包括:根据所述激活函数对所述本层网络的输入信息进行映射处理,将所述本层网络的输入信息映射成0至1之间的数值;以映射得到的数值为概率进行伯努利过程采样,获得对应的随机二值化网络节点的输出结果;其中,所述输出结果为所述本层网络产生的随机二值化数值;将获得的随机二值化网络节点的输出结果作为所述下一层网络的输入。4.根据权利要求1所述的神经网络训练及推理方法,其特征在于,所述激活函数为挤压函数,包括:Logistic函数、误差函数、剪切式整流线性单元函数以及对称剪切式整流线性单元函数中的一种或组合。5.根据权利要求1所述的神经网络训练及推理方法,其特征在于,所述对所述激活函数的导数进行伯努利过程采样,得到随机二值化后的激活函数的导数,包括:获取所述激活函数的导数;以获得的导数为概率进行伯努利过程采样,获得对应的随机二值化网络节点的输出结果;将获得的随机二值化网络节点的输出结果作为反向传播过程的误差信息计算值。6.根据权利要求5所述的神经网络训练及推理方法,其特征在于,所述以获得的导数为概率进行伯努利过程采样,获得对应的随机二值化网络节点的输出结果,之前包括:对所述激活函数的导数的幅值进行等比例缩放或近似化处理。7.根据权利要求1所述的神经网络训练及推理方法,其特征在于,所述对所述下一层网络的反向传播的误差进行符号化处理,并根据符号化处理后的值...

【专利技术属性】
技术研发人员:王伟李阳姜文峰汪令飞耿玓刘明
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1