神经网络的参数更新方法及相关设备技术

技术编号:37703492 阅读:12 留言:0更新日期:2023-06-01 23:50
本申请提出一种神经网络的参数更新方法、装置、电子设备及存储介质,一种神经网络的参数更新方法包括:初始化神经网络的网络参数和激活函数的激活参数,神经网络包括多个网络层,网络层至少包括激活函数;从训练集中挑选训练数据输入神经网络以获取各网络层的输出结果,并基于输出结果计算各网络层的误差分量,将所有误差分量的和作为代价函数;基于代价函数更新网络参数,完成一次迭代训练;重复执行迭代训练,并基于相邻两次迭代训练中相同网络层的误差分量更新各网络层的激活参数;对神经网络进行多次迭代训练,直至代价函数的取值小于预设数值或达到预定迭代训练次数时停止。本申请能够提高神经网络训练过程中参数更新的速度和效率。新的速度和效率。新的速度和效率。

【技术实现步骤摘要】
神经网络的参数更新方法及相关设备


[0001]本申请涉及人工智能
,尤其涉及一种神经网络的参数更新方法、装置、电子设备及存储介质。

技术介绍

[0002]神经网络是一种模拟大脑进行学习,对信息进行分布式并行处理的参数模型。通过改变神经网络中的参数可以对原始数据进行一些线性和非线性的转变得到更高层次、更抽象的特征表达,广泛应用于计算机视觉、语音识别、自然语言处理等研究领域。
[0003]在使用神经网络解决实际问题之前,通常使用反向传播算法对神经网络进行训练以更新神经网络中参数的取值,反向传播算法是一种在所有参数上使用梯度下降法进行参数更新的方法,然而,在神经网络的层数较深时,这种方式容易使参数的取值落在局部极小值上而得不到全局最优解,同时,随着训练次数的增加,网络的收敛速度慢,甚至出现梯度消失导致训练中断,神经网络训练过程中参数更新的速度和效率不高。

技术实现思路

[0004]鉴于以上内容,有必要提出一种神经网络的参数更新方法及相关设备,以解决如何提高神经网络训练过程中参数更新的速度和效率这一技术问题,其中,相关设备包括一种神经网络的参数更新装置、电子设备及存储介质。
[0005]本申请提供一种神经网络的参数更新方法,所述方法包括:
[0006]S10,初始化神经网络的网络参数以及所有激活函数的激活参数,所述神经网络包括多个网络层,所述网络层至少包括所述激活函数;
[0007]S11,从训练集中随机挑选至少一个训练数据输入所述神经网络以获取每一个网络层的输出结果,并基于所述输出结果计算每一个网络层的误差分量,将所有误差分量的总和作为代价函数,所述训练集包括多个训练数据;
[0008]S12,基于所述代价函数和反向传播算法更新所述网络参数,完成一次迭代训练;
[0009]S13,重复执行步骤S11和步骤S12,并基于相邻两次迭代训练中的相同网络层的误差分量更新每一个网络层中激活函数的激活参数;
[0010]S14,返回步骤S11,迭代训练所述神经网络,直至所述代价函数的取值小于预设数值或达到预定迭代训练次数时停止。
[0011]在一些实施例中,所述网络层包括线性处理单元和激活函数,所述激活函数包括激活参数;
[0012]所述激活函数用于将网络层中线性处理单元的输出数值映射为激活值,所述激活值为所述网络层的输出结果,所述激活函数满足关系式:
[0013][0014]其中,O
k
‑1为网络层k

1的输出结果,f
wk
为网络层k的线性处理单元,λ
k
为网络层k中激活函数的激活参数,f
Wk
(
k
‑1)为网络层k中线性处理单元的输出数值,O
k
为网络层k的输出结果。
[0015]在一些实施例中,所述从训练集中随机挑选至少一个训练数据输入所述神经网络以获取每一个网络层的输出结果,并基于所述输出结果计算每一个网络层的误差分量,将所有误差分量的总和作为代价函数,包括:
[0016]A1,以标注的方式获取所述训练数据的第K标签数据,所述第K标签数据为将所述训练数据输入所述神经网络后网络层K的预期输出,所述网络层K为所述神经网络的最后一个网络层;
[0017]A2,基于所述第K标签数据和所述网络层K的输出结果计算所述网络层K的误差分量,所述网络层K的误差分量关系式:
[0018][0019]其中,M为随机挑选的训练数据的数量,为将第i个训练数据输入所述神经网络后网络层K的输出结果,为第i个训练数据对应的第K标签数据,Loss
K
为所述网络层K的误差分量;
[0020]A3,基于所述第K标签数据和所述网络层K的网络参数计算第K

1标签数据,所述第K

1标签数据为将所述训练数据输入所述神经网络后网络层K

1的预期输出,所述网络层K

1为所述网络层K上一个相邻的网络层;
[0021]A4,基于所述第K

1标签数据和所述网络层K

1的输出结果计算所述网络层K

1的误差分量;
[0022]A5,重复执行步骤A3到A4,遍历所述神经网络中所有网络层以计算每一个网络层的误差分量;
[0023]A6,计算所有网络层的误差分量的总和作为代价函数,所述代价函数满足关系式:
[0024][0025]其中,Loss
k
为第k个网络层的误差分量,K为所有网络层的数量,Loss为所述代价函数。
[0026]在一些实施例中,所述基于所述第K标签数据和所述网络层K的网络参数计算第K

1标签数据包括:
[0027]基于所述网络层K的网络参数获取所述网络层K的线性处理单元
[0028]将所述第K标签数据输入所述网络层K的线性处理单元的反函数,得到第K

1标签数据,所述第K

1标签数据满足关系式:
[0029][0030]其中,为网络层K的线性处理单元的反函数,为第i个训练数据对应的
第K标签数据,λ
K
为所述网络层K的激活函数中的激活参数,为第i个训练数据对应的第K

1标签数据。
[0031]在一些实施例中,所述基于所述代价函数和反向传播算法更新所述网络参数包括:
[0032]基于所述代价函数计算所述神经网络中任意一个网络参数的梯度;
[0033]基于所述梯度和预设学习率沿着梯度下降的方向更新所述网络参数的取值,所述更新过程满足关系式:
[0034][0035]其中,η为预设学习率,为网络参数θ的梯度,为所述梯度下降的方向,θ1和θ2分别为更新之前和更新之后网络参数θ的取值。
[0036]在一些实施例中,所述基于相邻两次迭代训练中的相同网络层的误差分量更新每一个网络层中激活函数的激活参数包括:
[0037]将任意一个网络层作为目标层;
[0038]计算相邻两次迭代训练中所述目标层的误差分量的变化量,所述误差分量的变化量满足关系式:
[0039][0040]其中,为所述两次迭代训练中前一个迭代训练中目标层m的误差分量,为所述两次迭代训练中后一个迭代训练中目标层m的误差分量,ΔE()为目标层m的误差分量的变化量;
[0041]若ΔE()小于第一阈值且大于第二阈值,则依据预设规则增大所述目标层中激活函数的激活参数的取值,否则,将所述目标层中激活函数的激活参数的取值置为1;
[0042]遍历所有网络层以更新每一个网络层中激活函数的激活参数。
[0043]在一些实施例中,所述依据预设规则增大所述目标层中激活函数的激活参数的取值包括:
[0044]将所述激活参数的取值加上预设步长以增大所述目标层中激活函数的激活参数。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络的参数更新方法,其特征在于,所述方法包括:S10,初始化神经网络的网络参数以及所有激活函数的激活参数,所述神经网络包括多个网络层,所述网络层至少包括所述激活函数;S11,从训练集中随机挑选至少一个训练数据输入所述神经网络以获取每一个网络层的输出结果,并基于所述输出结果计算每一个网络层的误差分量,将所有误差分量的总和作为代价函数,所述训练集包括多个训练数据;S12,基于所述代价函数和反向传播算法更新所述网络参数,完成一次迭代训练;S13,重复执行步骤S11和步骤S12,并基于相邻两次迭代训练中的相同网络层的误差分量更新每一个网络层中激活函数的激活参数;S14,返回步骤S11,迭代训练所述神经网络,直至所述代价函数的取值小于预设数值或达到预定迭代训练次数时停止。2.如权利要求1所述的神经网络的参数更新方法,其特征在于,所述网络层包括线性处理单元和激活函数,所述激活函数包括激活参数;所述激活函数用于将网络层中线性处理单元的输出数值映射为激活值,所述激活值为所述网络层的输出结果,所述激活函数满足关系式:其中,O
k
‑1为网络层k

1的输出结果,为网络层k的线性处理单元,λ
k
为网络层k中激活函数的激活参数,为网络层k中线性处理单元的输出数值,O
k
为网络层k的输出结果。3.如权利要求1所述的神经网络的参数更新方法,其特征在于,所述从训练集中随机挑选至少一个训练数据输入所述神经网络以获取每一个网络层的输出结果,并基于所述输出结果计算每一个网络层的误差分量,将所有误差分量的总和作为代价函数,包括:A1,以标注的方式获取所述训练数据的第K标签数据,所述第K标签数据为将所述训练数据输入所述神经网络后网络层K的预期输出,所述网络层K为所述神经网络的最后一个网络层;A2,基于所述第K标签数据和所述网络层K的输出结果计算所述网络层K的误差分量,所述网络层K的误差分量关系式:其中,M为随机挑选的训练数据的数量,为将第i个训练数据输入所述神经网络后网络层K的输出结果,为第i个训练数据对应的第K标签数据,Loss
K
为所述网络层K的误差分量;A3,基于所述第K标签数据和所述网络层K的网络参数计算第K

1标签数据,所述第K

1标签数据为将所述训练数据输入所述神经网络后网络层K

1的预期输出,所述网络层K

1为所述网络层K上一个相邻的网络层;
A4,基于所述第K

1标签数据和所述网络层K

1的输出结果计算所述网络层K

1的误差分量;A5,重复执行步骤A3到A4,遍历所述神经网络中所有网络层以计算每一个网络层的误差分量;A6,计算所有网络层的误差分量的总和作为代价函数,所述代价函数满足关系式:其中,Loss
k
为第k个网络层的误差分量,K为所有网络层的数量,Loss为所述代价函数。4.如权利要求3所述的神经网络的参数更新方法,其特征在于,所述基于所述第K标签数据和所述网络层K的网络参数计算第K
...

【专利技术属性】
技术研发人员:葛昭蒂
申请(专利权)人:平安壹钱包电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1