模型训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:37308304 阅读:24 留言:0更新日期:2023-04-21 22:52
本申请公开了一种模型训练方法、装置、计算机设备及存储介质,涉及人工智能技术领域。该方法包括:获取第一训练样本集;对第一训练样本集中的部分训练样本添加噪声,得到第二训练样本集;根据第二训练样本集,对初始模型进行迭代训练,得到训练后的所述初始模型,作为目标模型,初始模型中伪量化节点用于根据目标参数精度对特征处理层的输出进行量化操作以及反量化操作,目标模型用于根据目标参数精度对模型参数进行精度量化后,部署于电子设备中。如此,在量化训练过程中,为输入的部分训练样本添加了噪声,可以提高模型的鲁棒性和泛化能力,提高了量化训练的量化精度,同时也提高了电子设备端的部署精度。了电子设备端的部署精度。了电子设备端的部署精度。

【技术实现步骤摘要】
模型训练方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种模型训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着深度学习技术的发展,神经网络的应用也日益走向成熟。目前神经网络模型已经被广泛应用于工业界和人们日常生活的各个业务场景中。而其中一些领域(如工业领域)通常对神经网络模型的精度与延时有着十分严格的要求,需要部署在终端上的模型能够保持高精度的同时,具有较低的延迟,以充分满足业务需求。为达成这一目标,诸多神经网络压缩及优化技术被深入研究,其中就包括模型量化这种经典的模型优化方法。
[0003]由于在对模型的网络参数进行量化(即将高精度的网络参数压缩为低精度的网络参数,如将浮点精度的网络参数压缩为整数精度的网络参数)的过程中会产生一定的误差,即先将高精度的网络参数压缩为带有一定量化误差的低精度的网络参数,再将该带有量化误差的低精度的网络参数还原为高精度的网络参数,但此时的高精度网络参数带有量化误差,而后再对这一次训练完成后的模型中对应的网络参数进行量化处理。但是这样的优化过程,会降低模型端侧部署的精度,对于一些精度要求较为严格的端侧业务来说无法满足其业务需求。因此,如何在保证模型精度的前提下,对模型进行优化已成为一个亟待解决的问题。

技术实现思路

[0004]本申请提出了一种模型训练方法、装置、计算机设备及存储介质,以提高模型的量化精度。
[0005]第一方面,本申请实施例提供了一种模型训练方法,应用于计算机设备,所述方法包括:获取第一训练样本集,所述第一训练样本集中的每个训练样本携带有标签信息;对所述第一训练样本集中的部分训练样本添加噪声,得到对所述部分训练样本添加噪声后的所述第一训练样本集,作为第二训练样本集;根据所述第二训练样本集,对初始模型进行迭代训练,得到训练后的所述初始模型,作为目标模型,所述初始模型中包括特征处理层以及与所述特征处理层相连的伪量化节点,所述伪量化节点用于根据目标参数精度对所述特征处理层的输出进行量化操作以及反量化操作,所述目标模型用于根据目标参数精度对模型参数进行精度量化后,部署于电子设备中。
[0006]第二方面,本申请实施例提供了一种模型训练装置,应用于计算机设备,所述装置包括:样本集获取模块、噪声添加模块和模型训练模块。样本集获取模块,用于获取第一训练样本集,所述第一训练样本集中的每个训练样本携带有标签信息;噪声添加模块,用于对所述第一训练样本集中的部分训练样本添加噪声,得到对所述部分训练样本添加噪声后的所述第一训练样本集,作为第二训练样本集;模型训练模块,用于根据所述第二训练样本集,对初始模型进行迭代训练,得到训练后的所述初始模型,作为目标模型,所述初始模型
中包括特征处理层以及与所述特征处理层相连的伪量化节点,所述伪量化节点用于根据目标参数精度对所述特征处理层的输出进行量化操作以及反量化操作,所述目标模型用于根据目标参数精度对模型参数进行精度量化后,部署于电子设备中。
[0007]第三方面,本申请实施例提供了一种计算机设备,包括:一个或多个处理器;存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
[0008]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述的方法。
[0009]本申请提供的方案中,计算机设备获取第一训练样本集,其中,第一训练样本集中的每个训练样本携带有标签信息;对第一训练样本集中的部分训练样本添加噪声,得到对部分训练样本添加噪声后的第一训练样本集,作为第二训练样本集;根据第二训练样本集,对初始模型进行迭代训练,得到训练后的所述初始模型,作为目标模型,初始模型中包括特征处理层以及与特征处理层相连的伪量化节点,伪量化节点用于根据目标参数精度对特征处理层的输出进行量化操作以及反量化操作,目标模型用于根据目标参数精度对模型参数进行精度量化后,部署于电子设备中。如此,在量化训练过程中,为输入的部分训练样本添加了噪声,可以是提高模型的鲁棒性和泛化能力,进而使得电子设备端与计算机设备的数值有差异,也能使得模型可以容忍这种差异,在存在差异的情况下产生争取而结果,提高了量化训练的量化精度,同时也提高了电子设备端的部署精度,并减少了计算机设备端的量化训练的理论量化精度与电子设备端的部署精度之间的差异。
附图说明
[0010]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1示出了本申请一实施例提供的模型训练方法的流程示意图。
[0012]图2示出了图1中步骤S120在一种实施方式中的子步骤的流程示意图。
[0013]图3示出了图1中步骤S130在一种实施方式中的子步骤的流程示意图。
[0014]图4示出了本申请另一实施例提供的模型训练方法的流程示意图。
[0015]图5是根据本申请一实施例提供的一种模型训练装置的框图。
[0016]图6是本申请实施例的用于执行根据本申请实施例的模型训练方法的计算机设备的框图。
[0017]图7是本申请实施例的用于保存或者携带实现根据本申请实施例的模型训练方法的程序代码的存储单元。
具体实施方式
[0018]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员
在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0019]需要说明的是,在本申请的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如S110、S120等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。以及,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或子模块的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或子模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或子模块。
[0020]专利技术人提出一种模型训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,应用于计算机设备,所述方法包括:获取第一训练样本集,所述第一训练样本集中的每个训练样本携带有标签信息;对所述第一训练样本集中的部分训练样本添加噪声,得到对所述部分训练样本添加噪声后的所述第一训练样本集,作为第二训练样本集;根据所述第二训练样本集,对初始模型进行迭代训练,得到训练后的所述初始模型,作为目标模型,所述初始模型中包括特征处理层以及与所述特征处理层相连的伪量化节点,所述伪量化节点用于根据目标参数精度对所述特征处理层的输出进行量化操作以及反量化操作,所述目标模型用于根据目标参数精度对模型参数进行精度量化后,部署于电子设备中。2.根据权利要求1所述的方法,其特征在于,所述第一训练样本集为样本图像集,所述样本图像集用于第一训练任务的模型训练,所述对所述第一训练样本集中的部分训练样本添加噪声,得到对所述部分训练样本添加噪声后的所述第一训练样本集,作为第二训练样本集,包括:获取与所述第一训练任务对应的目标高斯核;利用所述目标高斯核,对所述样本图像集中的目标数量的样本图像进行卷积处理,得到卷积处理后的所述样本图像集,作为所述第二训练样本集。3.根据权利要求2所述的方法,其特征在于,在所述利用所述目标高斯核,对所述样本图像集中的目标数量的样本图像进行卷积处理,得到卷积处理后的所述样本图像集,作为所述第二训练样本集之前,所述方法还包括:获取与所述第一训练任务对应的噪声添加概率;获取所述样本图像集中的样本图像的总图像数量与所述噪声添加概率的乘积,作为所述目标数量。4.根据权利要求1所述的方法,其特征在于,所述根据所述第二训练样本集,对初始模型进行迭代训练,得到训练后的所述初始模型,作为目标模型,包括:将所述第二训练样本集中的每个训练样本输入至所述初始模型中的特征处理层,得到每个所述训练样本对应的特征处理结果;将每个所述训练样本对应的特征处理结果输入至所述初始模型中的所述伪量化节点,得到每个所述训练样本对应的节点输出结果,所述节点输出结果为所述伪量化节点按照所述电子设备对应的所述目标参数精度对所述特征处理结果进行所述量化操作以及所述反量化操作得到的;基于每个所述训练样本对应的节点输出结果以及每个所述训练样本携带的标签信息,确定目标损失值;基于所述目标损失值,对所述初始模型进行迭代训练,直至满足目标训练条件,得到训练后的所述初始模型,作为所述目...

【专利技术属性】
技术研发人员:陈腊梅王凡祎
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1