一种存内计算存储器人工神经网络的片上训练方法技术

技术编号：40503906 阅读：6 留言：0更新日期：2024-03-01 13:17

本发明专利技术提供了一种存内计算存储器人工神经网络的片上训练方法，属于人工神经网络算法优化领域。本发明专利技术遵循曼哈顿规则的思路，提出引入基于概率的三值更新规则，将理想经典误差反向传播算法BP算法中的高精度权重更新转化为三值的权重更新，在每个训练批次只对一个器件施加最多一个编程脉冲，减少了操作次数，训练方法收敛快且稳定，训练后识别精度高，对原BP算法改动小，从算法角度超过曼哈顿及阈值‑曼哈顿规则的表现；本发明专利技术可以高效实现片上随机梯度下降SGD和小批量梯度下降MBGD，不需要额外存储高精度的权重更新值，减少了额外的硬件开销，优化了推理电路的设计。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工神经网络算法优化领域，具体涉及一种存内计算存储器人工神经网络的片上训练方法。

技术介绍

1、随着信息化与智能化已经成为世界发展的趋势。以人工神经网络为代表的人工智能在数据分析方面展现出了惊人的潜力，并在各行各业迎来爆发式的增长。经过多年演化，人工神经网络已经由最简单的mp神经元发展成为包括感知机、自组织特征映射、霍普菲尔德网络等神经网络的庞大家族。如今，基于经典的误差反向传播算法，以多层感知机和卷积神经网络为代表的各类深度学习算法在多个领域中发挥着巨大的作用。

2、人工神经网络算法通过对神经元、突触和人脑神经网络连接结构的高度抽象，利用数学统计方法简化生物大脑的信息处理过程，并模仿训练和推理功能。在人工神经网络中，生物神经元被抽象成了节点，其复杂的整合与发放功能被抽象成了非线性激活函数；而突触被抽象成了连接，其连接强度被抽象成权重。每个神经元节点通过权重与其他神经元节点相连，并将其它神经元的输入通过权重加权、求和，再通过激活函数转化为输出，当人工神经网络对某样本的输出结果和目标输出的误差越小时，对该样本的推理也就越准确，正确识别的样本个数与样本总个数的比值成为衡量一个人工神经网络识别能力的重要指标。

3、为了提高推理能力及识别率，人工神经网络可以通过训练减小误差。训练过程中需要构造误差函数，并通过经典的误差反向传播算法(bp算法)使权重向着误差函数负梯度方向更新，根据选择样本数量以计算误差函数梯度的不同，可以细分为随机梯度下降(sgd)，小批量梯度下降(mbgd)，和批量梯度下降(bgd

4、但是当误差函数较为病态的时候，计算出来的梯度随着训练时快时慢，网络收敛不稳定，权重更新进度容易停留在误差函数梯度较小的鞍点，使得学习停滞。采用曼哈顿学习规则，让权重与梯度分量的符号成比例的更新，限定每个权重更新的幅度，让权重在权重空间内“沿方格运动”，从而有利于算法收敛。进一步优化有已经提出的阈值-曼哈顿规则。

5、虽然上述提到的两种规则可以帮助提高sgd算法和mbgd算法的学习效率，但仍存在一定的问题：每个批次等效权重更新的平均值相对较小，会造成网络收敛性下降，并最终造成精度损失；上述两种规则对搭建人工神经网络的阻变存储器件的缓变中间状态数有较高要求；此外，在部分应用中需要额外存储高精度的权重更新值，对训练带来额外的硬件压力，特别是片上训练。因此，针对相关领域的优化和改进以提高人工神经网络训练的效率和准确性具有重要意义。

技术实现思路

1、针对以上现有技术中存在的问题，本专利技术提出了一种存内计算存储器人工神经网络的片上训练方法。本专利技术对基于存内计算存储器的人工神经网络进行更进一步优化：遵循曼哈顿规则的思路，提出引入基于概率的三值更新规则(probability-based ternarylearning，pbtl)，将理想经典误差反向传播算法bp算法中的高精度权重更新转化为三值的权重更新，权重更新的概率和方向与bp算法中高精度权重的值和方向对应，提高了片上训练效率和准确性。

2、本专利技术的技术方案如下：

3、一种存内计算存储器人工神经网络的片上训练方法，其特征在于，训练架构包括用来存储权重的存内计算存储器阵列、外围ad/da电路、用来存储高精度中间参数的缓存结构及用于以特定概率生成随机数的随机数发生器，其在一次权重更新内的具体步骤如下：

4、1)利用存内计算存储器权重阵列的差分电导gl+和gl-计算出高精度的中间参数和其中l和l-1表示神经网络的层号，是神经网络第l-1层的第i个神经元输出，表示第l层的第j个神经元反向传播的局部误差；

5、2)将中间参数和与随机数发生器生成的随机数比较，生成概率化的三值随机数和

6、

7、

8、其中，p是随机数发生器生成的均匀分布随机数，比例系数a、b满足：

9、

10、其中，sign表示取符号操作，αl是第l层的学习率，dw表示曼哈顿规则下每次权重更新的步长；

11、3)利用和更新权重矩阵是连接第l层的第i个神经元输出和第l-1层的第j个神经元输出之间的突触权重，表示权重的变化量：

12、

13、公式的向量外积形式：

14、

15、将生成的和转化为写入电压信号，分别施加在存内计算存储器权重阵列gl+和gl-上进行并行的权重更新，实现基于概率三值的权重更新。

16、进一步，按照所述的训练方法，将一个批次内每个样本独立生成更新值再将其相加来算出总的权重更新量其训练架构额外增加了用来存储三值更新信息的数字存内计算存储器阵列，用于存储正负权重的更新量gs和gr，在一批次权重更新前将gs和gr均置为高阻态，对于批次内的第k个样本，具体训练步骤如下：

17、1)利用存内计算存储器权重阵列的差分电导gl+和gl-计算出高精度的中间参数和

18、2)将中间参数和与随机数发生器生成的随机数比较，生成概率化的三值随机数和

19、

20、

21、其中，sign表示取符号操作，p是随机数发生器生成的均匀分布随机数，比例系数a、b满足：

22、

23、其中，αl是第l层的学习率,dw表示曼哈顿规则下每次权重更新的步长；

24、3)利用和生成针对当前样本的临时权重更新

25、

26、根据生成的调节权重更新矩阵gs和gr的电导状态，即将生成的和转化为写入电压信号，分别施加在存内计算存储器权重阵列gl+和gl-上进行权重更新矩阵gs和gr的写入，实现基于概率三值的权重更新。

27、进一步，在一个批次的k个样本都参与计算后，gs和gr中所存储的信息就是最终的权重更新信息，当gs和gr中的存储值分别为1，0和-1时，分别给对应的权重矩阵施加一次置位/无/复位操作；同时给施加复位/无/置位操作，采用逐行写入的方式更新gl+和gl-。

28、进一步，所述存内计算存储器为阻变存储器、相变存储器、磁阻存储器或者铁电存储器。

29、本专利技术一种存内计算存储器人工神经网络的片上训练方法，遵循曼哈顿规则的思路，提出引入基于概率的三值更新规则，将理想经典误差反向传播算法(bp算法)中的高精度权重更新转化为三值的权重更新，在每个训练批次只对一个器件施加最多一个编程脉冲，减少了操作次数；训练方法收敛快且稳定，训练后识别精度高，对原bp算法改动小，从算法角度超过曼哈顿及阈值-曼哈顿规则的表现；本专利技术可以高效实现片上随机梯度下降sgd和小批量梯度下降mbgd，不需要额外存储高精度的权重更新值，减少了额外的硬件开销，优化了推理电路的设计。

本文档来自技高网...

【技术保护点】

1.一种存内计算存储器人工神经网络的片上训练方法，其特征在于，训练架构包括用于存储权重的存内计算存储器阵列、外围AD/DA电路、用于存储高精度中间参数的缓存结构及用于以特定概率生成随机数的随机数发生器，其在一次权重更新内的具体步骤如下：

2.如权利要求1所述的一种存内计算存储器人工神经网络的片上训练方法，其特征在于，将一个批次内每个样本独立生成更新值再将其相加来算出总的权重更新量其训练架构额外增加了用于存储三值更新信息的数字存内计算存储器阵列，用于存储正负权重的更新量Gs和Gr，在一批次权重更新前将Gs和Gr均置为高阻态，对于批次内的第k个样本，具体训练步骤如下：

3.如权利要求2所述的一种存内计算存储器人工神经网络的片上训练方法，其特征在于，在一个批次的K个样本都参与计算后，Gs和Gr中所存储的信息就是最终的权重更新信息，当Gs和Gr中的存储值分别为1，0和-1时，分别给对应的权重矩阵施加一次置位/无/复位操作；同时给施加复位/无/置位操作，采用逐行写入的方式更新Gl+和Gl-。

4.如权利要求1所述的一种存内计算存储器人工神经网络的片上训练

...

【技术特征摘要】

1.一种存内计算存储器人工神经网络的片上训练方法，其特征在于，训练架构包括用于存储权重的存内计算存储器阵列、外围ad/da电路、用于存储高精度中间参数的缓存结构及用于以特定概率生成随机数的随机数发生器，其在一次权重更新内的具体步骤如下：

2.如权利要求1所述的一种存内计算存储器人工神经网络的片上训练方法，其特征在于，将一个批次内每个样本独立生成更新值再将其相加来算出总的权重更新量其训练架构额外增加了用于存储三值更新信息的数字存内计算存储器阵列，用于存储正负权重的更新量gs和gr，在一批次权重更新前将gs和gr均置为高阻态，对...

【专利技术属性】
技术研发人员：蔡一茂，高一，王宗巍，喻志臻，黄如，
申请(专利权)人：北方集成电路技术创新中心北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人