一种模型的训练方法、装置、存储介质及电子装置制造方法及图纸

技术编号:33477990 阅读:36 留言:0更新日期:2022-05-19 00:53
本发明专利技术实施例提供了一种模型的训练方法、装置、存储介质及电子装置,其中,该方法包括:基于初始网络模型中包括的第一初始模型的第一训练精度确定第一初始模型的第一评价指标,以及基于初始网络模型中包括的第二初始模型的第二训练精度确定第二初始模型的第二评价指标;在第一评价指标以及第二评价指标中存在大于预定阈值的评价指标的情况下,将第一评价指标以及第二评价指标中包括的最小评价指标对应的初始模型确定为待优化的目标初始模型;利用训练数据以及其他初始模型训练目标初始模型,得到目标网络模型。通过本发明专利技术,解决了相关技术中存在的模型训练时间长、效率低的问题,达到提高模型的训练效率的效果。达到提高模型的训练效率的效果。达到提高模型的训练效率的效果。

【技术实现步骤摘要】
一种模型的训练方法、装置、存储介质及电子装置


[0001]本专利技术实施例涉及计算机领域,具体而言,涉及一种模型的训练方法、装置、存储介质及电子装置。

技术介绍

[0002]近年来,深度学习发展迅猛,被应用到计算机视觉、语音识别以及自然语言处理上。随着数据规模积累的足够大,场景越加复杂,往往会使用到更加复杂的模型结构,这不仅仅需要更大的算力需求,同时也对存储带来了一定的挑战。由此以衍生了模型优化、压缩、剪枝、蒸馏等技术方案,而模型蒸馏就这些方案中比较常用的一种。
[0003]蒸馏方案主要以一个优秀的Teacher 模型为基础,通过知识蒸馏将Teacher 模型优秀的表现传递给Student模型,从而得到一个又好又快的Student模型。然而,在相关技术中,Teacher模型是提前训练好的,且Teacher模型的精度要高于Student模型,由此导致了模型训练时间长、效率低的问题。
[0004]针对相关技术中存在的上述问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种模型的训练方法、装置、存储介质及电子装置,以至少解决相关技术中存在的模型训练时间长、效率低的问题。
[0006]根据本专利技术的一个实施例,提供了一种模型的训练方法,包括:基于初始网络模型中包括的第一初始模型的第一训练精度确定所述第一初始模型的第一评价指标,以及基于所述初始网络模型中包括的第二初始模型的第二训练精度确定所述第二初始模型的第二评价指标,其中,所述初始网络模型为经过训练得到的网络模型;在所述第一评价指标以及所述第二评价指标中存在大于预定阈值的评价指标的情况下,将所述第一评价指标以及所述第二评价指标中包括的最小评价指标对应的初始模型确定为待优化的目标初始模型;利用训练数据以及其他初始模型训练所述目标初始模型,得到目标网络模型,其中,所述其他初始模型为所述第一评价指标以及所述第二评价指标中包括的最大评价指标对应的初始模型。
[0007]根据本专利技术的另一个实施例,提供了一种模型的训练装置,包括:第一确定模块,用于基于初始网络模型中包括的第一初始模型的第一训练精度确定所述第一初始模型的第一评价指标,以及基于所述初始网络模型中包括的第二初始模型的第二训练精度确定所述第二初始模型的第二评价指标,其中,所述初始网络模型为经过训练得到的网络模型;第二确定模块,用于在所述第一评价指标以及所述第二评价指标中存在大于预定阈值的评价指标的情况下,将所述第一评价指标以及所述第二评价指标中包括的最小评价指标对应的初始模型确定为待优化的目标初始模型;训练模块,用于利用训练数据以及其他初始模型训练所述目标初始模型,得到目标网络模型,其中,所述其他初始模型为所述第一评价指标以及所述第二评价指标中包括的最大评价指标对应的初始模型。
[0008]根据本专利技术的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述任一项中所述的方法的步骤。
[0009]根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
[0010]通过本专利技术,根据初始网络模型中包括的第一初始网络模型的第一训练精度确定第一初始模型的第一评价指标,根据初始网络模型中包括的第二初始网络模型的第二训练精度确定第二初始模型的第二评价指标。在第评价指标以及第二评价指标中存在大于预定阈值的评价指标的情况下,将第一评价指标以及第二评价指标中包括的最小评价指标对应的初始模型确定为待优化的目标初始模型,利用训练数据以及第一评价指标和第二评价指标中包括的最大评价指标对应的其他初始模型训练目标初始模型,以得到目标网络模型。由于在训练时,可以同时训练第一初始模型和第二初始模型,并确定第一初始模型的第一评价指标和第二初始模型的第二评价指标,在第一评价指标和第二评价指标中存在大于预定阈值的评价指标时,利用最大评价指标对应的其他初始模型和训练数据对目标初始模型进行训练优化,实现了同时训练第一初始模型和第二初始模型,并在在第一评价指标和第二评价指标中存在大于预定阈值的评价指标时,指定用其他初始模型训练目标初始模型,无需预先训练其他初始模型。因此,可以解决相关技术中存在的模型训练时间长、效率低的问题,达到提高模型的训练效率的效果。
附图说明
[0011]图1是本专利技术实施例的一种模型的训练方法的移动终端的硬件结构框图;图2是根据本专利技术实施例的模型的训练方法的流程图;图3是根据本专利技术具体实施例的检测模型训练方法流程图;图4是根据本专利技术具体实施例的分类模型训练方法流程图;图5是根据本专利技术实施例的模型的训练装置的结构框图。
具体实施方式
[0012]下文中将参考附图并结合实施例来详细说明本专利技术的实施例。
[0013]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0014]蒸馏方案主要以一个优秀的Teacher 模型为基础,通过知识蒸馏将Teacher 模型优秀的表现传递给Student模型,从而得到一个又好又快的Student模型。这种方案存在以下几点不足:1)Teacher 一般需要在蒸馏前预先训练好;2)Teacher 模型的精度对蒸馏结果的影响较大,Student模型精度上限取决于Teacher 模型的最高精度;3)传统蒸馏Teacher模型和Studnet模型的身份是固定不变的,Teacher 模型需要更高的精度,因此Teacher 模型的结构要比Student模型更大更复杂;
4)传统蒸馏方法对分类模型和检测模型上有较大的差异,一般方法不可通用。
[0015]针对相关技术中存在的上述问题,提出以下实施例:本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本专利技术实施例的一种模型的训练方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
[0016]存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本专利技术实施例中的模型的训练方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型的训练方法,其特征在于,包括:基于初始网络模型中包括的第一初始模型的第一训练精度确定所述第一初始模型的第一评价指标,以及基于所述初始网络模型中包括的第二初始模型的第二训练精度确定所述第二初始模型的第二评价指标,其中,所述初始网络模型为经过训练得到的网络模型;在所述第一评价指标以及所述第二评价指标中存在大于预定阈值的评价指标的情况下,将所述第一评价指标以及所述第二评价指标中包括的最小评价指标对应的初始模型确定为待优化的目标初始模型;利用训练数据以及其他初始模型训练所述目标初始模型,得到目标网络模型,其中,所述其他初始模型为所述第一评价指标以及所述第二评价指标中包括的最大评价指标对应的初始模型。2.根据权利要求1所述的方法,其特征在于,利用训练数据以及其他初始模型训练所述目标初始模型,得到目标网络模型包括:将训练数据输入至所述其他初始模型中,确定所述其他初始模型输出的第一特征;将所述训练数据以及所述第一特征输入至所述目标初始模型中,确定所述目标初始模型的第一损失值;基于所述第一损失值迭代更新所述目标初始模型的网络参数,得到所述目标网络模型。3.根据权利要求2所述的方法,其特征在于,将所述训练数据以及所述第一特征输入至所述目标初始模型中,确定所述目标初始模型的第一损失值包括:确定所述第一特征中包括的每个特征层的第一子特征与所述目标初始模型输出的第二子特征之间的损失值,得到多个第二损失值,其中,所述第二子特征与所述第一子特征处于相同的特征层;确定多个所述第二损失值的第一和值;确定所述第二损失值对应的目标权重;确定所述第一和值与所述目标权重的第一乘积;基于所述目标初始模型输出的特征与所述其他初始模型输出的特征确定第三损失值;将所述第一乘积与所述第三损失值的第二和值确定为所述第一损失值。4.根据权利要求3所述的方法,其特征在于,确定所述第二损失值对应的目标权重包括:确定所述目标初始模型的评价指标与第一参数的第二乘积;确定所述第二乘积与第二参数的第一差值;将所述第一差值与第三参数的比值确定为所述目标权重。5.根据权利要求1所述的方法,其特征在于,在基于所述初始网络模型中包括的第二初始模型的第二训练精度确定所述第二初始模型的第二评价指标之后,所述方法还包括:在所述第一评价指标以及所述第二评价指标均小于或等于预定阈值的情况下,将所述第一初始模型以及所述第二初始模型确定为所述目标初始模型;利用训练数据迭代更新所述目标初始模型的网络参数,得到更新后的所...

【专利技术属性】
技术研发人员:彭垚杨德城林亦宁
申请(专利权)人:北京闪马智建科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1