一种更新参数的方法、装置及存储介质制造方法及图纸

技术编号:31078710 阅读:25 留言:0更新日期:2021-12-01 11:34
本申请公开了一种更新参数的方法,该方法应用于人工智能领域。该方法通过多次迭代来多次更新神经网络模型的参数,多次迭代包括第一迭代范围和第二迭代范围,该方法包括:在第一迭代范围内,每第一更新步长所指示的迭代次数更新一次神经网络模型的附加矩阵的逆矩阵,在第二迭代范围内,每第二更新步长所指示的迭代次数更新一次神经网络模型的附加矩阵的逆矩阵,在迭代顺序上,第二迭代范围的第一次迭代在第一迭代范围的最后一次迭代之后,第二更新步长大于第一更新步长。这样,随着迭代次数的增多,更新步长越来越大,可以减少逆矩阵更新的次数,减少了神经网络模型训练的时间,提高了神经网络模型训练的速度。了神经网络模型训练的速度。了神经网络模型训练的速度。

【技术实现步骤摘要】
一种更新参数的方法、装置及存储介质


[0001]本申请涉及人工智能(artificial intelligence,AI)领域,具体涉及一种更新参数的方法、装置及存储介质。

技术介绍

[0002]机器学习在许多应用领域都表现出了优异的性能,例如:在图像识别、目标检测和自然语言处理等应用领域都被广泛使用。无论是在哪个应用领域,都会通过相应应用领域的样本数据训练神经网络模型,然后再将训练好的神经网络模型应用在各应用领域。
[0003]神经网络模型在训练时会进行多次迭代,每次迭代通常都会采样一阶优化算法和二阶优化算法更新一次神经网络模型的参数。一阶优化时通常采用随机梯度下降算法 (stochastic gradient descent,SGD)对神经网络模型的损失函数进行一阶求导得到参数的一阶梯度。然后在一阶梯度的基础上采用二阶优化算法进行二阶优化,得到参数的二阶梯度。
[0004]二阶优化时会涉及到对神经网络模型的附加矩阵的逆矩阵的计算,该逆矩阵的计算复杂度非常大,影响了神经网络模型训练的速度。
专利技术内容
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种更新参数的方法,其特征在于,所述更新参数的方法用于通过多次迭代来多次更新神经网络模型的参数,所述多次迭代包括第一迭代范围和第二迭代范围,所述方法包括:在所述第一迭代范围内,每第一更新步长所指示的迭代次数更新一次所述神经网络模型的附加矩阵的逆矩阵,所述第一迭代范围包括至少两次迭代;在所述第二迭代范围内,每第二更新步长所指示的迭代次数更新一次所述神经网络模型的附加矩阵的逆矩阵,所述第二迭代范围包括至少两次迭代,在迭代顺序上,所述第二迭代范围的第一次迭代在所述第一迭代范围的最后一次迭代之后,所述第二更新步长大于所述第一更新步长。2.根据权利要求1所述的方法,其特征在于,所述多次迭代包括第三迭代范围,所述第三迭代范围为所述多次迭代中的任意一个迭代范围,所述方法还包括:若所述多次迭代中的第N次迭代位于所述第三迭代范围,且为第三更新步长所指示的需要更新所述逆矩阵的迭代,则更新所述神经网络模型的附加矩阵的逆矩阵,并使用更新后的附加矩阵的逆矩阵,以及所述第N次迭代的一阶梯度更新所述神经网络模型中的参数,所述第三更新步长为所述第三迭代范围的更新步长,所述N为整数,且N>1。3.根据权利要求2所述的方法,其特征在于,所述更新所述神经网络模型的附加矩阵的逆矩阵,并使用更新后的附加矩阵的逆矩阵,以及所述第N次迭代的一阶梯度更新所述神经网络模型中的参数,包括:更新P个块的附加矩阵的逆矩阵,所述P个块为所述神经网络模型的Q个块中的部分块或全部块,所述P和Q为整数,且Q≥P,且Q≥2,P≥1;采用所述P个块更新后的附加矩阵的逆矩阵,以及所述P个块第N次迭代的一阶梯度更新所述P个块中对应块的参数;若Q>P,则除所述P个块之外的(Q-P)个块,采用第(N-1)次迭代时所述(Q-P)个块所使用的附加矩阵的逆矩阵,以及所述(Q-P)个块第N次迭代的一阶梯度更新所述(Q-P)个块中对应块的参数。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:基于所述神经网络模型中M个块的附加矩阵的信息,从所述M个块中得到所述P个块,所述附加矩阵的信息包括所述附加矩阵的迹或所述附加矩阵的二范数,所述M个块是所述第N次迭代的Q个块中需要更新所述附加矩阵的块,所述M为整数,Q≥M≥P。5.根据权利要求4所述的方法,其特征在于,所述基于所述神经网络模型中M个块的附加矩阵的信息,从所述M个块中得到所述P个块,包括:根据所述第N次迭代的M个块的附加矩阵的迹,以及第(N-1)次迭代的所述M个块的附加矩阵的迹,从所述M个块中得到所述P个块。6.根据权利要求5所述的方法,其特征在于,所述根据所述第N次迭代的M个块的附加矩阵的迹,以及第(N-1)次迭代的所述M个块的附加矩阵的迹,从所述M个块中得到所述P个块,包括:从所述M个块中得到第一比值大于第一阈值的P个块,所述第一比值为第一差值与所述第(N-1)次迭代的附加矩阵的迹的比值,所述第一差值为所述第N次迭代的附加矩阵的迹与所述第(N-1)次迭的附加矩阵的迹的差值。
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:基于所述神经网络模型中多个块的采样概率,从所述多个块中得到所述P个块,其中,一个块的所述采样概率用于指示一个块在所述第N次迭代时被更新附加矩阵的逆矩阵的概率。8.根据权利要求2-7任一项所述的方法,其特征在于,所述方法还包括:在所述第N次迭代的第二差值等于更新起始值的情况下更新所述逆矩阵,其中,所述第二差值为所述N与在前迭代范围的总长度的差值,所述在前迭代范围在执行顺序上位于所述第三迭代范围之前,所述更新起始值用于指示所述第三迭代范围内首次更新所述逆矩阵的迭代。9.根据权利要求2-7任一项所述的方法,其特征在于,所述方法还包括:在所述第N次迭代的第一余数为0的情况下更新所述逆矩阵;其中,所述第一余数为第三差值与所述第三更新步长的余数,所述第三差值为(N-更新起始值)与在前迭代范围的总长度的差值,所述在前迭代范围在执行顺序上位于所述第三迭代范围之前,所述更新起始值用于指示所述第三迭代范围内首次更新所述逆矩阵的迭代。10.一种更新参数的方法,其特征在于,所述更新参数的方法用于通过多次迭代来多次更新神经网络模型的参数,针对所述多次迭代中的第N次迭代,N为大于1的整数,所述方法包括:更新P个块的附加矩阵的逆矩阵,所述P个块为所述神经网络模型的Q个块中的部分块或全部块,所述P和Q为整数,且Q≥P,且Q≥2,P≥1;采用所述P个块更新后的附加矩阵的逆矩阵,以及所述P个块第N次迭代的一阶梯度更新所述P个块中对应块的参数;若Q>P,则除所述P个块之外的(Q-P)个块,采用第(N-1)次迭代时所述(Q-P)个块所使用的附加矩阵的逆矩阵,以及所述(Q-P)个块第N次迭代的一阶梯度更新所述(Q-P)个块中对应块的参数。11.根据权利要求10所述的方法,其特征在于,所述方法还包括:基于所述神经网络模型中M个块的附加矩阵的信息,从所述M个块中得到所述P个块,所述附加矩阵的信息包括所述附加矩阵的迹或所述附加矩阵的二范数,所述M个块是所述第N次迭代的Q个块中需要更新所述附加矩阵的块,所述M为整数,Q≥M≥P。12.根据权利要求11所述的方法,其特征在于,所述基于所述神经网络模型中M个块的附加矩阵的信息,从所述M个块中得到所述P个块,包括:根据所述第N次迭代的M个块的附加矩阵的迹,以及第(N-1)次迭代的所述M个块的附加矩阵的迹,从所述M个块中得到所述P个块。13.根据权利要求12所述的方法,其特征在于,所述根据所述第N次迭代的M个块的附加矩阵的迹,以及第(N-1)次迭代的所述M个块的附加矩阵的迹,从所述M个块中得到所述P个块,包括:从所述M个块中得到第一比值大于第一阈值的P个块,...

【专利技术属性】
技术研发人员:王紫东陈梦云于璠陈雷
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1