模型的量化训练方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:37496742 阅读:38 留言:0更新日期:2023-05-07 09:34
本申请公开了一种模型的量化训练方法、装置、电子设备及可读存储介质,方法包括:向预先获取的待量化模型输入样本数据,输出预测数据;基于所述预测数据和所述样本数据对应的标准数据计算第一损失函数,对所述第一损失函数引入正则化项,得到第二损失函数,所述正则化项用于对所述待量化模型中各个权重参数进行限制;基于所述预测数据和所述样本数据对应的标准数据,根据所述第二损失函数训练所述待量化模型。本申请实施例通过给第一损失函数增加正则化项作为第二损失函数,并基于第二损失函数训练待量化模型,由于正则化项能够给予权重惩罚,使部分特征的权重趋于零甚至等于零,从而降低了量化过程产生的权重误差对模型精度的影响,提高模型精度。提高模型精度。提高模型精度。

【技术实现步骤摘要】
模型的量化训练方法、装置、电子设备及可读存储介质


[0001]本申请涉及人工智能
,更具体地,涉及一种模型的量化训练方法、装置、电子设备及可读存储介质。

技术介绍

[0002]目前,随着人工智能的发展,模型的大小大大增加,需要对模型进行压缩以降低大模型的内存需求和计算量,具体可以包括网络裁剪、知识蒸馏和参数量化等方法,然而,在模型的量化过程中,会出现模型的精度受损而降低模型鲁棒性的问题。

技术实现思路

[0003]本申请提出了一种模型的量化训练方法、装置、电子设备及可读存储介质,以提高量化后的模型鲁棒性。
[0004]第一方面,本申请实施例提供了一种模型的量化训练方法,所述方法包括:向预先获取的待量化模型输入样本数据,输出预测数据;基于所述预测数据和所述样本数据对应的标准数据计算第一损失函数,对所述第一损失函数引入正则化项,得到第二损失函数,所述正则化项用于对所述待量化模型中各个权重参数进行限制;基于所述预测数据和所述样本数据对应的标准数据,根据所述第二损失函数训练所述待量化模型。
[0005]第二方面,本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型的量化训练方法,其特征在于,包括:向预先获取的待量化模型输入样本数据,输出预测数据;基于所述预测数据和所述样本数据对应的标准数据计算第一损失函数,对所述第一损失函数引入正则化项,得到第二损失函数,所述正则化项用于对所述待量化模型中各个权重参数进行限制;基于所述预测数据和所述样本数据对应的标准数据,根据所述第二损失函数训练所述待量化模型。2.根据权利要求1所述的模型的量化训练方法,其特征在于,在向预先获取的待量化模型输入样本数据,输出预测数据之前,所述方法还包括:向神经网络模型中插入伪量化节点,得到待量化模型。3.根据权利要求1所述的模型的量化训练方法,其特征在于,所述对第一损失函数引入正则化项,得到第二损失函数,包括:将所述待量化模型中各个权重参数的绝对值之和乘以第一正则化项系数,作为正则化项;将所述正则化项与所述第一损失函数求和,得到第二损失函数。4.根据权利要求1所述的模型的量化训练方法,其特征在于,所述对所第一损失函数引入正则化项,包括:将所述待量化模型中各个权重参数的平方和乘以第二正则化项系数,作为正则化项;将所述正则化项与所述第一损失函数求和,得到第二损失函数。5.根据权利要求1所述的模型的量化训练方法,其特征在于,所述对第一损失函数引入正则化项,包括:将所述待量化模型中各个权重参数的绝对值之和乘以第一正则化项系数与各个权重参数的平方和乘以第二正则化项系数求和,作为...

【专利技术属性】
技术研发人员:陈腊梅王凡祎
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1