模型的量化训练方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：37496742 阅读：35 留言：0更新日期：2023-05-07 09:34

本申请公开了一种模型的量化训练方法、装置、电子设备及可读存储介质,方法包括：向预先获取的待量化模型输入样本数据，输出预测数据；基于所述预测数据和所述样本数据对应的标准数据计算第一损失函数，对所述第一损失函数引入正则化项，得到第二损失函数，所述正则化项用于对所述待量化模型中各个权重参数进行限制；基于所述预测数据和所述样本数据对应的标准数据，根据所述第二损失函数训练所述待量化模型。本申请实施例通过给第一损失函数增加正则化项作为第二损失函数，并基于第二损失函数训练待量化模型，由于正则化项能够给予权重惩罚，使部分特征的权重趋于零甚至等于零，从而降低了量化过程产生的权重误差对模型精度的影响，提高模型精度。提高模型精度。提高模型精度。

全部详细技术资料下载

【技术实现步骤摘要】
模型的量化训练方法、装置、电子设备及可读存储介质

[0001]本申请涉及人工智能
，更具体地，涉及一种模型的量化训练方法、装置、电子设备及可读存储介质。

技术介绍

[0002]目前，随着人工智能的发展，模型的大小大大增加，需要对模型进行压缩以降低大模型的内存需求和计算量，具体可以包括网络裁剪、知识蒸馏和参数量化等方法，然而，在模型的量化过程中，会出现模型的精度受损而降低模型鲁棒性的问题。

技术实现思路

[0003]本申请提出了一种模型的量化训练方法、装置、电子设备及可读存储介质，以提高量化后的模型鲁棒性。
[0004]第一方面，本申请实施例提供了一种模型的量化训练方法，所述方法包括：向预先获取的待量化模型输入样本数据，输出预测数据；基于所述预测数据和所述样本数据对应的标准数据计算第一损失函数，对所述第一损失函数引入正则化项，得到第二损失函数，所述正则化项用于对所述待量化模型中各个权重参数进行限制；基于所述预测数据和所述样本数据对应的标准数据，根据所述第二损失函数训练所述待量化模型。
[0005]第二方面，本申请实施例还提供了一种模型的量化训练装置，所述装置包括：前向计算单元，用于向预先获取的待量化模型输入样本数据，输出预测数据；正则化单元，用于基于所述预测数据和所述样本数据对应的标准数据计算第一损失函数，对所述第一损失函数引入正则化项，得到第二损失函数，所述正则化项用于对所述待量化模型中各个权重参数进行限制；训练单元，用于基于所述预测数据和所述样本数据对应的标准数据，根据所述第二...

【技术保护点】

【技术特征摘要】
1.一种模型的量化训练方法，其特征在于，包括：向预先获取的待量化模型输入样本数据，输出预测数据；基于所述预测数据和所述样本数据对应的标准数据计算第一损失函数，对所述第一损失函数引入正则化项，得到第二损失函数，所述正则化项用于对所述待量化模型中各个权重参数进行限制；基于所述预测数据和所述样本数据对应的标准数据，根据所述第二损失函数训练所述待量化模型。2.根据权利要求1所述的模型的量化训练方法，其特征在于，在向预先获取的待量化模型输入样本数据，输出预测数据之前，所述方法还包括：向神经网络模型中插入伪量化节点，得到待量化模型。3.根据权利要求1所述的模型的量化训练方法，其特征在于，所述对第一损失函数引入正则化项，得到第二损失函数，包括：将所述待量化模型中各个权重参数的绝对值之和乘以第一正则化项系数，作为正则化项；将所述正则化项与所述第一损失函数求和，得到第二损失函数。4.根据权利要求1所述的模型的量化训练方法，其特征在于，所述对所第一损失函数引入正则化项，包括：将所述待量化模型中各个权重参数的平方和乘以第二正则化项系数，作为正则化项；将所述正则化项与所述第一损失函数求和，得到第二损失函数。5.根据权利要求1所述的模型的量化训练方法，其特征在于，所述对第一损失函数引入正则化项，包括：将所述待量化模型中各个权重参数的绝对值之和乘以第一正则化项系数与各个权重参数的平方和乘以第二正则化项系数求和，作为...

【专利技术属性】
技术研发人员：陈腊梅，王凡祎，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人