【技术实现步骤摘要】
神经网络的参数更新方法及相关设备
[0001]本申请涉及人工智能
,尤其涉及一种神经网络的参数更新方法、装置、电子设备及存储介质。
技术介绍
[0002]神经网络是一种模拟大脑进行学习,对信息进行分布式并行处理的参数模型。通过改变神经网络中的参数可以对原始数据进行一些线性和非线性的转变得到更高层次、更抽象的特征表达,广泛应用于计算机视觉、语音识别、自然语言处理等研究领域。
[0003]在使用神经网络解决实际问题之前,通常使用反向传播算法对神经网络进行训练以更新神经网络中参数的取值,反向传播算法是一种在所有参数上使用梯度下降法进行参数更新的方法,然而,在神经网络的层数较深时,这种方式容易使参数的取值落在局部极小值上而得不到全局最优解,同时,随着训练次数的增加,网络的收敛速度慢,甚至出现梯度消失导致训练中断,神经网络训练过程中参数更新的速度和效率不高。
技术实现思路
[0004]鉴于以上内容,有必要提出一种神经网络的参数更新方法及相关设备,以解决如何提高神经网络训练过程中参数更新的速度和效率这一技术问题,其中,相关设备包括一种神经网络的参数更新装置、电子设备及存储介质。
[0005]本申请提供一种神经网络的参数更新方法,所述方法包括:
[0006]S10,初始化神经网络的网络参数以及所有激活函数的激活参数,所述神经网络包括多个网络层,所述网络层至少包括所述激活函数;
[0007]S11,从训练集中随机挑选至少一个训练数据输入所述神经网络以获取每一个网络层的输出结果,并 ...
【技术保护点】
【技术特征摘要】
1.一种神经网络的参数更新方法,其特征在于,所述方法包括:S10,初始化神经网络的网络参数以及所有激活函数的激活参数,所述神经网络包括多个网络层,所述网络层至少包括所述激活函数;S11,从训练集中随机挑选至少一个训练数据输入所述神经网络以获取每一个网络层的输出结果,并基于所述输出结果计算每一个网络层的误差分量,将所有误差分量的总和作为代价函数,所述训练集包括多个训练数据;S12,基于所述代价函数和反向传播算法更新所述网络参数,完成一次迭代训练;S13,重复执行步骤S11和步骤S12,并基于相邻两次迭代训练中的相同网络层的误差分量更新每一个网络层中激活函数的激活参数;S14,返回步骤S11,迭代训练所述神经网络,直至所述代价函数的取值小于预设数值或达到预定迭代训练次数时停止。2.如权利要求1所述的神经网络的参数更新方法,其特征在于,所述网络层包括线性处理单元和激活函数,所述激活函数包括激活参数;所述激活函数用于将网络层中线性处理单元的输出数值映射为激活值,所述激活值为所述网络层的输出结果,所述激活函数满足关系式:其中,O
k
‑1为网络层k
‑
1的输出结果,为网络层k的线性处理单元,λ
k
为网络层k中激活函数的激活参数,为网络层k中线性处理单元的输出数值,O
k
为网络层k的输出结果。3.如权利要求1所述的神经网络的参数更新方法,其特征在于,所述从训练集中随机挑选至少一个训练数据输入所述神经网络以获取每一个网络层的输出结果,并基于所述输出结果计算每一个网络层的误差分量,将所有误差分量的总和作为代价函数,包括:A1,以标注的方式获取所述训练数据的第K标签数据,所述第K标签数据为将所述训练数据输入所述神经网络后网络层K的预期输出,所述网络层K为所述神经网络的最后一个网络层;A2,基于所述第K标签数据和所述网络层K的输出结果计算所述网络层K的误差分量,所述网络层K的误差分量关系式:其中,M为随机挑选的训练数据的数量,为将第i个训练数据输入所述神经网络后网络层K的输出结果,为第i个训练数据对应的第K标签数据,Loss
K
为所述网络层K的误差分量;A3,基于所述第K标签数据和所述网络层K的网络参数计算第K
‑
1标签数据,所述第K
‑
1标签数据为将所述训练数据输入所述神经网络后网络层K
‑
1的预期输出,所述网络层K
‑
1为所述网络层K上一个相邻的网络层;
A4,基于所述第K
‑
1标签数据和所述网络层K
‑
1的输出结果计算所述网络层K
‑
1的误差分量;A5,重复执行步骤A3到A4,遍历所述神经网络中所有网络层以计算每一个网络层的误差分量;A6,计算所有网络层的误差分量的总和作为代价函数,所述代价函数满足关系式:其中,Loss
k
为第k个网络层的误差分量,K为所有网络层的数量,Loss为所述代价函数。4.如权利要求3所述的神经网络的参数更新方法,其特征在于,所述基于所述第K标签数据和所述网络层K的网络参数计算第K
...
【专利技术属性】
技术研发人员:葛昭蒂,
申请(专利权)人:平安壹钱包电子商务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。