【技术实现步骤摘要】
用于更新人工神经网络的方法
[0001]相关申请的交叉引用
[0002]本申请要求于2020年11月24日提交的法国专利申请No.2012081的优先权,该申请在此通过整体引用并入本文中。
[0003]本公开总体上涉及人工神经网络,并且在特定的实施例,涉及更新人工神经网络的层中的权重。
技术介绍
[0004]人工神经网络在其运行时用于执行给定的功能。例如,神经网络的一个功能可以是分类。另一个功能可以主要在于根据接收的输入信号生成信号。
[0005]人工神经网络通常包括神经元层的连续。每个层在其输入处接收被施加权重的数据,并且在由层的神经元激活功能处理后输出数据。输出数据继而被传递到神经网络中的下一层。
[0006]权重是能够被配置为获得正确输出数据的参数。
[0007]神经网络可以例如由硬件平台(诸如被集成到互联对象的微控制器)实现。
[0008]神经网络通常在在被集成到最终硬件平台之前的学习阶段期间被训练。学习阶段可以被监督。学习阶段允许神经网络的权重被调整以从神经网络获得正确的输出数据,其中神经网络可以通过输入来自参考数据库的已经分类的数据运行。权重适于根据来自相对于预期数据的神经网络的输出数据而变化。
[0009]此外,在被集成到硬件平台之前,神经网络可以被量化以加速其运行以及减少存储器需求。特别地,神经网络的量化可以包括神经网络数据格式(诸如权重)的改变,可以是浮点格式的权重被改变为整数格式。
[0010]量化神经网络获得较轻的神经网络,诸如可以 ...
【技术保护点】
【技术特征摘要】
1.一种方法,包括:由处理器确定人工神经网络的层的输出处的误差梯度;由所述处理器从存储器取回所述人工神经网络的初始权重,所述初始权重至少为整数格式;由所述处理器将所述初始权重更新为经校正的权重,每个初始权重基于该初始权重的值、学习速率、该初始权重的量化步长、以及相对于该初始权重的所述误差梯度的和被更新为经校正的权重;以及由所述处理器在所述存储器中利用所述经校正的权重代替所述初始权重的值。2.根据权利要求1所述的方法,其中每个初始权重基于如下公式被更新为所述经校正的权重:其中是所述经校正的权重的值,是该初始权重的值,λ是所述学习速率,Scale(n)是该初始权重的所述量化步长的值,是相对于该初始权重的所述误差梯度的所述和,以及round()是用于向上舍入或向下舍入到最接近的整数的函数。3.根据权利要求2所述的方法,其中所述round()函数是随机舍入。4.根据权利要求1所述的方法,其中将所述初始权重更新为经校正的权重包括:对于从所述人工神经网络的最后一层到第一层的所述人工神经网络的每个层进行更新。5.根据权利要求1所述的方法,其中所述初始权重的更新还包括所述人工神经网络的每个层的所述经校正的权重的量化,所述经校正的权重的量化包括从包括将被量化的所述经校正的权重的所述每个层的所述经校正的权重的集合中确定最小权重以及最大权重。6.根据权利要求1所述的方法,其中所述初始权重的更新还包括所述人工神经网络的每个层的所述经校正的权重的量化,每个经校正的权重的所述量化包括:由所述处理器取回与对应的来自存储器的所述初始权重相关联的零点值;由所述处理器基于如下公式更新与所述每个经校正的权重相关联的所述零点值:其中Zp(n+1)是经更新的所述零点值,minq和maxq分别是所述经校正的权重能够采用的最小值以及最大值,Zp(n)是存储在存储器中的所述零点值,minq(n)是经校正的权重的集合中的所述经校正的权重的最小值,并且maxq(n)是经校正的权重的集合中的所述经校正的权重的最大值,并且其中min(n)=Scale(n).max
q
(n)
‑
Zp(n),并且max(n)=Scale(n).max
q
(n)
‑
Zp(n);以及由所述处理器在存储器中使用经更新的所述零点值代替所述零点值。7.根据权利要求6所述的方法,其中每个经校正的权重的量化还包括:由所述处理器从存储器中取回所述初始权重的量化步长的值;由所述处理器基于如下公式更新所述量化步长的值:其中Scale(n+1)是经更新的所述量化步长的值,minq(n)是权重的集合中的所述经校正的权重的最小值,maxq(n)是所述权重的集合中的所述经校正的权重的最大值;以及
由所述处理器在存储器中使用经更新的所述量化步长代替所述量化步长的值。8.根据权利要求7所述的方法,其中所述经校正的权重包括基于如下公式计算所述经校正的权重的量化值:其中是所述经校正的权重的所述量化值。9.权利要求1所述的方法,还包括:对于所述人工神经网络的每个层,计算决策制定标准;对于每个层,将所述决策制定标准与阈值进行比较;以及对于每个层,根据所述比较的结果,对所述层的每个经校正的权重均匀地量化所述经校正的权重,或对所述层的逐通道独立地量化所述经校正的权重。10.根据权利要求9所述的方法,其中所述决策制定标准基于如下公式计算:其中Scale
l
(n+1)是能够针对整个层定义的量化步长,并且min(Scale
c
(n+1))是从能够针对所述层的每个通道定义的所述量化步长中的最小量化...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。