一种网络模型训练方法和装置制造方法及图纸

技术编号:22262616 阅读:34 留言:0更新日期:2019-10-10 15:05
本发明专利技术实施例提供了一种网络模型训练方法和装置,方法包括:将预设训练样本集中的训练样本,分别输入至目标网络模型所包含的各子网络模型,获取各子网络模型各自的损失函数的数值,以及原始损失函数的数值,其中,一个子网络模型的损失函数用于表示该子网络模型的实际输出结果与期望输出结果之间的差值,原始损失函数用于表示目标网络模型的实际输出结果与期望输出结果之间的差值,根据各子网络模型各自的损失函数的数值,以及原始损失函数的数值,对目标网络模型的模型参数进行调整,当达到预设停止训练条件时,停止模型训练,得到训练好的目标网络模型。基于上述处理,能够提高训练好的网络模型的有效性。

A Network Model Training Method and Device

【技术实现步骤摘要】
一种网络模型训练方法和装置
本专利技术涉及人工智能
,特别是涉及一种网络模型训练方法和装置。
技术介绍
随着人工智能技术的快速发展,神经网络模型(可以简称为网络模型)在系统辨识、模式识别、智能控制等领域有着广泛的应用前景。通常可以基于训练样本集,对预设的网络模型进行训练,得到训练好的网络模型,进而,可以将待检测样本输入至训练好的网络模型,得到网络模型的实际输出结果,实际输出结果为对待检测样本进行预测的预测结果。一种实现方式中,网络模型具有初始的模型参数,在对网络模型进行训练的过程中,可以根据损失函数对网络模型的模型参数进行调整,损失函数可以用于表示网络模型的实际输出结果与期望输出结果之间的差值,对模型参数进行调整的目的是为了使损失函数的数值不断减小。当达到预设停止训练条件,得到训练好的网络模型。然而,专利技术人在实现本专利技术的过程中发现,现有技术至少存在如下问题:针对包含多个子网络模型的目标网络模型,由于各子网络模型的结构、特性之间存在差异,在根据目标网络模型的损失函数对目标网络模型进行训练的情况下,当停止训练目标网络模型时,一些子网络模型达到较好的收敛状态,另一些子网络模型可能并未达到收敛状态,进而会导致训练好的目标网络模型的有效性较低。
技术实现思路
本专利技术实施例的目的在于提供一种网络模型训练方法和装置,能够提高训练好的网络模型的有效性。具体技术方案如下:第一方面,为了达到上述目的,本专利技术实施例公开了一种网络模型训练方法,所述方法包括:将预设训练样本集中的训练样本,分别输入至目标网络模型所包含的各子网络模型;获取所述各子网络模型各自的损失函数的数值,以及原始损失函数的数值,其中,一个子网络模型的损失函数用于表示该子网络模型的实际输出结果与期望输出结果之间的差值,所述原始损失函数用于表示所述目标网络模型的实际输出结果与期望输出结果之间的差值;根据所述各子网络模型各自的损失函数的数值,以及所述原始损失函数的数值,对所述目标网络模型的模型参数进行调整;当达到预设停止训练条件时,停止模型训练,得到训练好的目标网络模型。可选的,所述根据所述各子网络模型各自的损失函数的数值,以及所述原始损失函数的数值,对所述目标网络模型的模型参数进行调整,包括:根据所述各子网络模型各自的损失函数的数值与所述原始损失函数的数值的总和值,对所述目标网络模型的模型参数进行调整。可选的,所述原始损失函数为所述目标网络模型的实际输出结果与期望输出结果的交叉熵,一个子网络模型的损失函数为该子网络模型的实际输出结果与期望输出结果的交叉熵。可选的,所述目标网络模型为宽度和深度Wide&Deep网络模型。可选的,所述预设停止训练条件为:根据所述预设训练样本集对所述目标网络模型进行模型训练的次数,达到预设次数;或者,将测试样本输入至所述目标网络模型中,得到的所述目标损失函数的数值小于预设阈值。第二方面,为了达到上述目的,本专利技术实施例公开了一种网络模型训练装置,所述装置包括:第一处理模块,用于将预设训练样本集中的训练样本,分别输入至目标网络模型所包含的各子网络模型;获取模块,用于获取所述各子网络模型各自的损失函数的数值,以及原始损失函数的数值,其中,一个子网络模型的损失函数用于表示该子网络模型的实际输出结果与期望输出结果之间的差值,所述原始损失函数用于表示所述目标网络模型的实际输出结果与期望输出结果之间的差值;调整模块,用于根据所述各子网络模型各自的损失函数的数值,以及所述原始损失函数的数值,对所述目标网络模型的模型参数进行调整;第二处理模块,用于当达到预设停止训练条件时,停止模型训练,得到训练好的目标网络模型。可选的,所述调整模块,具体用于根据所述各子网络模型各自的损失函数的数值与所述原始损失函数的数值的总和值,对所述目标网络模型的模型参数进行调整。可选的,所述原始损失函数为所述目标网络模型的实际输出结果与期望输出结果的交叉熵,一个子网络模型的损失函数为该子网络模型的实际输出结果与期望输出结果的交叉熵。可选的,所述目标网络模型为宽度和深度Wide&Deep网络模型。可选的,所述预设停止训练条件为:根据所述预设训练样本集对所述目标网络模型进行模型训练的次数,达到预设次数;或者,将测试样本输入至所述目标网络模型中,得到的所述目标损失函数的数值小于预设阈值。在本专利技术实施的又一方面,还提供了一种电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任一所述的网络模型训练方法。在本专利技术实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的网络模型训练方法。在本专利技术实施的又一方面,本专利技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的网络模型训练方法。本专利技术实施例提供了一种网络模型训练方法,可以将预设训练样本集中的训练样本,分别输入至目标网络模型所包含的各子网络模型,获取各子网络模型各自的损失函数的数值,以及原始损失函数的数值,其中,一个子网络模型的损失函数用于表示该子网络模型的实际输出结果与期望输出结果之间的差值,原始损失函数用于表示目标网络模型的实际输出结果与期望输出结果之间的差值,根据各子网络模型各自的损失函数的数值,以及原始损失函数的数值,对目标网络模型的模型参数进行调整,当达到预设停止训练条件时,停止模型训练,得到训练好的目标网络模型。由于根据各子网络模型各自的损失函数的数值,以及原始损失函数的数值,对目标网络模型的模型参数进行调整,因此,当达到预设停止训练条件时,各子网络模型和目标网络模型都达到较好的收敛状态,能够提高训练好的目标网络模型的有效性。当然,实施本专利技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1为本专利技术实施例提供的一种网络模型训练方法的流程图;图2为本专利技术实施例提供的一种网络模型训练方法示例的流程图;图3为本专利技术实施例提供的一种计算目标损失函数过程的示意图;图4(a)为采用原始损失函数进行模型训练时,宽度和深度网络模型的训练曲线图;图4(b)为采用原始损失函数进行模型训练时,深度子网络模型的训练曲线图;图4(c)为采用原始损失函数进行模型训练时,宽度子网络模型的训练曲线图;图5(a)为采用目标损失函数进行模型训练时,宽度和深度网络模型的训练曲线图;图5(b)为采用目标损失函数进行模型训练时,深度子网络模型的训练曲线图;图5(c)为采用目标损失函数进行模型训练时,宽度子网络模型的训练曲线图;图6为本专利技术实施例提供的一种网络模型训练装置的结构图;图7为本专利技术实施例提供的一种电子设备的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行描述。现有技术中,针对包含多个子网络模型的目标网络模型,由于各子网络模型的结构、特性之间存在差异,当根据目标网络模型的实际输出结果和期望输出结果,确定达到预本文档来自技高网...

【技术保护点】
1.一种网络模型训练方法,其特征在于,所述方法包括:将预设训练样本集中的训练样本,分别输入至目标网络模型所包含的各子网络模型;获取所述各子网络模型各自的损失函数的数值,以及原始损失函数的数值,其中,一个子网络模型的损失函数用于表示该子网络模型的实际输出结果与期望输出结果之间的差值,所述原始损失函数用于表示所述目标网络模型的实际输出结果与期望输出结果之间的差值;根据所述各子网络模型各自的损失函数的数值,以及所述原始损失函数的数值,对所述目标网络模型的模型参数进行调整;当达到预设停止训练条件时,停止模型训练,得到训练好的目标网络模型。

【技术特征摘要】
1.一种网络模型训练方法,其特征在于,所述方法包括:将预设训练样本集中的训练样本,分别输入至目标网络模型所包含的各子网络模型;获取所述各子网络模型各自的损失函数的数值,以及原始损失函数的数值,其中,一个子网络模型的损失函数用于表示该子网络模型的实际输出结果与期望输出结果之间的差值,所述原始损失函数用于表示所述目标网络模型的实际输出结果与期望输出结果之间的差值;根据所述各子网络模型各自的损失函数的数值,以及所述原始损失函数的数值,对所述目标网络模型的模型参数进行调整;当达到预设停止训练条件时,停止模型训练,得到训练好的目标网络模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述各子网络模型各自的损失函数的数值,以及所述原始损失函数的数值,对所述目标网络模型的模型参数进行调整,包括:根据所述各子网络模型各自的损失函数的数值与所述原始损失函数的数值的总和值,对所述目标网络模型的模型参数进行调整。3.根据权利要求1所述的方法,其特征在于,所述原始损失函数为所述目标网络模型的实际输出结果与期望输出结果的交叉熵,一个子网络模型的损失函数为该子网络模型的实际输出结果与期望输出结果的交叉熵。4.根据权利要求1所述的方法,其特征在于,所述目标网络模型为宽度和深度Wide&Deep网络模型。5.根据权利要求1所述的方法,其特征在于,所述预设停止训练条件为:根据所述预设训练样本集对所述目标网络模型进行模型训练的次数,达到预设次数;或者,将测试样本输入至所述目标网络模型中,得到的所述目标损失函数的数值小于预设阈值。6.一种网络模型训练装置,其特征在于,所述装置包括:第一处理模块,用于将预设训练样本集中的训练样本,分别输入至目标网络...

【专利技术属性】
技术研发人员:张文迪崔正文
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1