当前位置: 首页 > 专利查询>清华大学专利>正文

一种模型训练方法及装置制造方法及图纸

技术编号:33894873 阅读:23 留言:0更新日期:2022-06-22 17:31
本发明专利技术提供一种模型训练方法及装置,涉及建模技术领域。所述方法包括:载入当前模型参数,并对回退前迭代次数进行清零;若确定模型每训练一次,则获取所述模型的损失指标参数和最新模型参数,并将回退前迭代次数加1;若确定所述损失指标参数大于所述模型的预设损失指标参数,则将所述回退前迭代次数与预设回退前迭代次数进行比较;若确定所述回退前迭代次数大于等于所述预设回退前迭代次数,则继续执行所述载入当前模型参数,并对回退前迭代次数进行清零,以及后续步骤。所述装置执行上述方法。本发明专利技术实施例提供的模型训练方法及装置,能够防止模型过拟合,同时保证模型参数得到继续优化。化。化。

【技术实现步骤摘要】
一种模型训练方法及装置


[0001]本专利技术涉及建模
,具体涉及一种模型训练方法及装置。

技术介绍

[0002]深度学习是基于学习表征的人工神经网络算法,广义上属于机器学习。深度学习模型被广泛应用于计算机视觉、自然语言处理、生物信息学等领域。深度学习具有层次的结构,每层都由多个神经元组成,大量的神经元参数为模型提供了解决多种任务的能力。一般而言,在模型架构一致,越多的参数带来越高的性能表现,但同时也带来了过拟合的风险。
[0003]过拟合,是指模型在训练集上的表现非常好,而在验证集上表现很差。它是深度学习中常见的陷阱——模型的学习能力过强,以至于记住了训练集数据的完整模式,包括噪声和随机扰动等。过拟合会导致模型不能够泛化,即在未曾见过的数据场景中表现良好,因而使得模型训练失败。
[0004]在深度学习中,神经网络架构的层数非常多,复杂且需要大量时间训练,非常容易导致过拟合。

技术实现思路

[0005]针对现有技术中的问题,本专利技术实施例提供一种模型训练方法及装置,能够至少部分地解决现有技术中存在的问题。
[0006]一方面,本专利技术提出一种模型训练方法,包括:
[0007]载入当前模型参数,并对回退前迭代次数进行清零;
[0008]若确定模型每训练一次,则获取所述模型的损失指标参数和最新模型参数,并将回退前迭代次数加1;
[0009]若确定所述损失指标参数大于所述模型的预设损失指标参数,则将所述回退前迭代次数与预设回退前迭代次数进行比较;r/>[0010]若确定所述回退前迭代次数大于等于所述预设回退前迭代次数,则继续执行所述载入当前模型参数,并对回退前迭代次数进行清零,以及后续步骤。
[0011]其中,所述模型训练方法还包括:
[0012]若确定所述回退前迭代次数小于所述预设回退前迭代次数,则继续执行所述若确定模型每训练一次,则获取所述模型的损失指标参数和最新模型参数,并将回退前迭代次数加1,以及后续步骤。
[0013]其中,所述模型训练方法还包括:
[0014]若确定所述损失指标参数小于等于所述模型的预设损失指标参数,则根据模型每训练一次得到的最新模型参数更新所述当前模型参数,以及根据所述损失指标参数更新所述预设损失指标参数;
[0015]继续执行所述载入当前模型参数,并对回退前迭代次数进行清零,以及后续步骤。
[0016]其中,获取模型训练终止条件;相应的,在所述载入当前模型参数,并对回退前迭
代次数进行清零的步骤之后,以及在所述若确定模型每训练一次,则获取所述模型的损失指标参数之前,所述模型训练方法还包括:
[0017]若确定模型训练未满足所述模型训练终止条件,则继续执行所述若确定模型每训练一次,则获取所述模型的损失指标参数和最新模型参数,并将回退前迭代次数加1,以及后续步骤。
[0018]其中,所述模型训练方法还包括:
[0019]若确定所述回退前迭代次数小于所述预设回退前迭代次数,则继续执行所述若确定模型训练未满足所述模型训练终止条件,以及后续步骤。
[0020]其中,所述模型训练终止条件包括模型训练迭代次数达到预设模型训练迭代次数。
[0021]一方面,本专利技术提出一种模型训练装置,包括:
[0022]载入单元,用于载入当前模型参数,并对回退前迭代次数进行清零;
[0023]获取单元,用于若确定模型每训练一次,则获取所述模型的损失指标参数和最新模型参数,并将回退前迭代次数加1;
[0024]比较单元,用于若确定所述损失指标参数大于所述模型的预设损失指标参数,则将所述回退前迭代次数与预设回退前迭代次数进行比较;
[0025]回退单元,用于若确定所述回退前迭代次数大于等于所述预设回退前迭代次数,则继续执行所述载入当前模型参数,并对回退前迭代次数进行清零,以及后续步骤。
[0026]其中,所述模型训练装置还用于:
[0027]若确定所述回退前迭代次数小于所述预设回退前迭代次数,则继续执行所述若确定模型每训练一次,则获取所述模型的损失指标参数和最新模型参数,并将回退前迭代次数加1,以及后续步骤。
[0028]再一方面,本专利技术实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
[0029]所述处理器和所述存储器通过所述总线完成相互间的通信;
[0030]所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
[0031]载入当前模型参数,并对回退前迭代次数进行清零;
[0032]若确定模型每训练一次,则获取所述模型的损失指标参数和最新模型参数,并将回退前迭代次数加1;
[0033]若确定所述损失指标参数大于所述模型的预设损失指标参数,则将所述回退前迭代次数与预设回退前迭代次数进行比较;
[0034]若确定所述回退前迭代次数大于等于所述预设回退前迭代次数,则继续执行所述载入当前模型参数,并对回退前迭代次数进行清零,以及后续步骤。
[0035]本专利技术实施例提供一种非暂态计算机可读存储介质,包括:
[0036]所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
[0037]载入当前模型参数,并对回退前迭代次数进行清零;
[0038]若确定模型每训练一次,则获取所述模型的损失指标参数和最新模型参数,并将回退前迭代次数加1;
[0039]若确定所述损失指标参数大于所述模型的预设损失指标参数,则将所述回退前迭代次数与预设回退前迭代次数进行比较;
[0040]若确定所述回退前迭代次数大于等于所述预设回退前迭代次数,则继续执行所述载入当前模型参数,并对回退前迭代次数进行清零,以及后续步骤。
[0041]本专利技术实施例提供的模型训练方法及装置,载入当前模型参数,并对回退前迭代次数进行清零;若确定模型每训练一次,则获取所述模型的损失指标参数和最新模型参数,并将回退前迭代次数加1;若确定所述损失指标参数大于所述模型的预设损失指标参数,则将所述回退前迭代次数与预设回退前迭代次数进行比较;若确定所述回退前迭代次数大于等于所述预设回退前迭代次数,则继续执行所述载入当前模型参数,并对回退前迭代次数进行清零,以及后续步骤,能够防止模型过拟合,同时保证模型参数得到继续优化。
附图说明
[0042]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0043]图1是本专利技术一实施例提供的模型训练方法的流程示意图。
[0044]图2是本专利技术另一实施例提供的模型训练方法的流程示意图。
[0045]图3是本专利技术一实施例提供的模型训练装置的结构示意本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:载入当前模型参数,并对回退前迭代次数进行清零;若确定模型每训练一次,则获取所述模型的损失指标参数和最新模型参数,并将回退前迭代次数加1;若确定所述损失指标参数大于所述模型的预设损失指标参数,则将所述回退前迭代次数与预设回退前迭代次数进行比较;若确定所述回退前迭代次数大于等于所述预设回退前迭代次数,则继续执行所述载入当前模型参数,并对回退前迭代次数进行清零,以及后续步骤。2.根据权利要求1所述的模型训练方法,其特征在于,所述模型训练方法还包括:若确定所述回退前迭代次数小于所述预设回退前迭代次数,则继续执行所述若确定模型每训练一次,则获取所述模型的损失指标参数和最新模型参数,并将回退前迭代次数加1,以及后续步骤。3.根据权利要求2所述的模型训练方法,其特征在于,所述模型训练方法还包括:若确定所述损失指标参数小于等于所述模型的预设损失指标参数,则根据模型每训练一次得到的最新模型参数更新所述当前模型参数,以及根据所述损失指标参数更新所述预设损失指标参数;继续执行所述载入当前模型参数,并对回退前迭代次数进行清零,以及后续步骤。4.根据权利要求2或3所述的模型训练方法,其特征在于,获取模型训练终止条件;相应的,在所述载入当前模型参数,并对回退前迭代次数进行清零的步骤之后,以及在所述若确定模型每训练一次,则获取所述模型的损失指标参数之前,所述模型训练方法还包括:若确定模型训练未满足所述模型训练终止条件,则继续执行所述若确定模型每训练一次,则获取所述模型的损失指标参数和最新模型参数,并将回退前迭代次数加1,以及后续...

【专利技术属性】
技术研发人员:江瑞何晓钰闾海荣张学工
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1