模型训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:37308304 阅读:34 留言:0更新日期:2023-04-21 22:52
本申请公开了一种模型训练方法、装置、计算机设备及存储介质,涉及人工智能技术领域。该方法包括:获取第一训练样本集;对第一训练样本集中的部分训练样本添加噪声,得到第二训练样本集;根据第二训练样本集,对初始模型进行迭代训练,得到训练后的所述初始模型,作为目标模型,初始模型中伪量化节点用于根据目标参数精度对特征处理层的输出进行量化操作以及反量化操作,目标模型用于根据目标参数精度对模型参数进行精度量化后,部署于电子设备中。如此,在量化训练过程中,为输入的部分训练样本添加了噪声,可以提高模型的鲁棒性和泛化能力,提高了量化训练的量化精度,同时也提高了电子设备端的部署精度。了电子设备端的部署精度。了电子设备端的部署精度。

【技术实现步骤摘要】
模型训练方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种模型训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着深度学习技术的发展,神经网络的应用也日益走向成熟。目前神经网络模型已经被广泛应用于工业界和人们日常生活的各个业务场景中。而其中一些领域(如工业领域)通常对神经网络模型的精度与延时有着十分严格的要求,需要部署在终端上的模型能够保持高精度的同时,具有较低的延迟,以充分满足业务需求。为达成这一目标,诸多神经网络压缩及优化技术被深入研究,其中就包括模型量化这种经典的模型优化方法。
[0003]由于在对模型的网络参数进行量化(即将高精度的网络参数压缩为低精度的网络参数,如将浮点精度的网络参数压缩为整数精度的网络参数)的过程中会产生一定的误差,即先将高精度的网络参数压缩为带有一定量化误差的低精度的网络参数,再将该带有量化误差的低精度的网络参数还原为高精度的网络参数,但此时的高精度网络参数带有量化误差,而后再对这一次训练完成后的模型中对应的网络参数进行量化处理。但是这样的优化过程,会降低模本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,应用于计算机设备,所述方法包括:获取第一训练样本集,所述第一训练样本集中的每个训练样本携带有标签信息;对所述第一训练样本集中的部分训练样本添加噪声,得到对所述部分训练样本添加噪声后的所述第一训练样本集,作为第二训练样本集;根据所述第二训练样本集,对初始模型进行迭代训练,得到训练后的所述初始模型,作为目标模型,所述初始模型中包括特征处理层以及与所述特征处理层相连的伪量化节点,所述伪量化节点用于根据目标参数精度对所述特征处理层的输出进行量化操作以及反量化操作,所述目标模型用于根据目标参数精度对模型参数进行精度量化后,部署于电子设备中。2.根据权利要求1所述的方法,其特征在于,所述第一训练样本集为样本图像集,所述样本图像集用于第一训练任务的模型训练,所述对所述第一训练样本集中的部分训练样本添加噪声,得到对所述部分训练样本添加噪声后的所述第一训练样本集,作为第二训练样本集,包括:获取与所述第一训练任务对应的目标高斯核;利用所述目标高斯核,对所述样本图像集中的目标数量的样本图像进行卷积处理,得到卷积处理后的所述样本图像集,作为所述第二训练样本集。3.根据权利要求2所述的方法,其特征在于,在所述利用所述目标高斯核,对所述样本图像集中的目标数量的样本图像进行卷积处理,得到卷积处理后的所述样本图像集,作为所述第二训练样本集之前,所述方法还包括:获取与所述第一训练任务对应的噪声添加概率;获取所述样本图像集中的样本图像的总图像数量与所述噪声添加概率的乘积,作为所述目标数量。4.根据权利要求1所述的方法,其特征在于,所述根据所述第二训练样本集,对初始模型进行迭代训练,得到训练后的所述初始模型,作为目标模型,包括:将所述第二训练样本集中的每个训练样本输入至所述初始模型中的特征处理层,得到每个所述训练样本对应的特征处理结果;将每个所述训练样本对应的特征处理结果输入至所述初始模型中的所述伪量化节点,得到每个所述训练样本对应的节点输出结果,所述节点输出结果为所述伪量化节点按照所述电子设备对应的所述目标参数精度对所述特征处理结果进行所述量化操作以及所述反量化操作得到的;基于每个所述训练样本对应的节点输出结果以及每个所述训练样本携带的标签信息,确定目标损失值;基于所述目标损失值,对所述初始模型进行迭代训练,直至满足目标训练条件,得到训练后的所述初始模型,作为所述目...

【专利技术属性】
技术研发人员:陈腊梅王凡祎
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1