本申请公开了一种模型的量化训练方法、装置、电子设备及可读存储介质,方法包括:向预先获取的待量化模型输入样本数据,输出预测数据;基于所述预测数据和所述样本数据对应的标准数据计算第一损失函数,对所述第一损失函数引入正则化项,得到第二损失函数,所述正则化项用于对所述待量化模型中各个权重参数进行限制;基于所述预测数据和所述样本数据对应的标准数据,根据所述第二损失函数训练所述待量化模型。本申请实施例通过给第一损失函数增加正则化项作为第二损失函数,并基于第二损失函数训练待量化模型,由于正则化项能够给予权重惩罚,使部分特征的权重趋于零甚至等于零,从而降低了量化过程产生的权重误差对模型精度的影响,提高模型精度。提高模型精度。提高模型精度。
【技术实现步骤摘要】
模型的量化训练方法、装置、电子设备及可读存储介质
[0001]本申请涉及人工智能
,更具体地,涉及一种模型的量化训练方法、装置、电子设备及可读存储介质。
技术介绍
[0002]目前,随着人工智能的发展,模型的大小大大增加,需要对模型进行压缩以降低大模型的内存需求和计算量,具体可以包括网络裁剪、知识蒸馏和参数量化等方法,然而,在模型的量化过程中,会出现模型的精度受损而降低模型鲁棒性的问题。
技术实现思路
[0003]本申请提出了一种模型的量化训练方法、装置、电子设备及可读存储介质,以提高量化后的模型鲁棒性。
[0004]第一方面,本申请实施例提供了一种模型的量化训练方法,所述方法包括:向预先获取的待量化模型输入样本数据,输出预测数据;基于所述预测数据和所述样本数据对应的标准数据计算第一损失函数,对所述第一损失函数引入正则化项,得到第二损失函数,所述正则化项用于对所述待量化模型中各个权重参数进行限制;基于所述预测数据和所述样本数据对应的标准数据,根据所述第二损失函数训练所述待量化模型。
[0005]第二方面,本申请实施例还提供了一种模型的量化训练装置,所述装置包括:前向计算单元,用于向预先获取的待量化模型输入样本数据,输出预测数据;正则化单元,用于基于所述预测数据和所述样本数据对应的标准数据计算第一损失函数,对所述第一损失函数引入正则化项,得到第二损失函数,所述正则化项用于对所述待量化模型中各个权重参数进行限制;训练单元,用于基于所述预测数据和所述样本数据对应的标准数据,根据所述第二损失函数训练所述待量化模型。
[0006]第三方面,本申请实施例还提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行第一方面所述的方法。
[0007]第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面所述的方法。
[0008]本申请提供的模型的量化训练方法、装置、电子设备及可读存储介质,该方法向预先获取的待量化模型输入样本数据,输出预测数据,然后,基于所述预测数据和所述样本数据对应的标准数据计算第一损失函数,对第一损失函数引入正则化项,得到第二损失函数,所述正则化项用于对所述待量化模型中各个权重参数进行限制,最后,基于所述预测数据和所述样本数据对应的标准数据,根据所述第二损失函数训练所述待量化模型。本申请通过在模型的量化训练过程中对权重进行正则化,从而提高了模型的鲁棒性,进一步地,提高
了模型量化精度。
附图说明
[0009]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1示出了本申请实施例提供的模型的量化训练方法的应用场景图;
[0011]图2示出了本申请实施例提供的模型的量化训练方法的方法流程图;
[0012]图3示出了本申请又一实施例提供的模型的量化训练方法的方法流程图;
[0013]图4示出了本申请实施例提供的模型的量化训练装置的结构框图;
[0014]图5示出了本申请实施例提供的电子设备的结构框图;
[0015]图6示出了本申请实施例提供的计算机可读存储介质的结构框图;
[0016]图7示出了本申请实施例提供的计算机程序产品的结构框图。
具体实施方式
[0017]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0018]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0019]目前,随着人工智能技术和深度学习的发展,神经网络被广泛应用于各种领域,模型性能的提高同时也引入了巨大的参数量和计算量,因此,通常会对模型进行压缩以降低模型的内存需求和计算量。
[0020]量化,就是将训练好的深度神经网络的权值、激活值等从高精度转化成低精度的过程。具体地,是在定点与浮点等数据之间建立一种数据映射关系,将信号的连续取值近似为有限多个离散值,并使得以较小的精度损失代价获得了较好的收益。目前,常用的模型量化训练方法可以根据是否在量化后进行微调(finetune)分为后量化训练(Post
‑
training Quantization)和量化感知训练(Quantization aware Training)。
[0021]然而,专利技术人在研究中发现,由于量化后的数值与原先的采样值之间会存在误差,这个误差数值就是量化精度,若模型的鲁棒性不足以克服量化带来的结果误差,会导致量化后的网络精度出现剧烈下降,使最终的量化效果差。
[0022]因此,为了克服上述缺陷,本申请提供了一种模型的量化训练方法、装置、电子设备及可读存储介质。
[0023]请参阅图1,图1示出了一种模型的量化训练方法的应用场景图,即模型的量化训练场景100,该模型的量化训练场景100中包括有电子设备110以及服务器120,其中电子设备110与服务器120相连接。
[0024]电子设备110可以通过接入互联网,从而和同样接入了互联网的服务器120建立连接。其中,电子设备110可以通过无线的方式接入互联网,例如通过无线通信技术Wi
‑
Fi、蓝牙Bluetooth等接入互联网;电子设备110还可以通过有线的方式接入互联网,例如通过Rj45网线或光纤接入互联网。
[0025]用户可以控制电子设备110从而使电子设备执行模型的量化训练方法,具体的介绍可以参阅后续实施例。例如,用户可以直接对电子设备110进行操作,从而控制电子设备执行模型的量化训练方法;用户还可以操作与电子设备110建立了通信连接的服务器120,从而通过服务器120控制电子设备执行模型的量化训练方法。其中,服务器120可以为一种云端的服务器,也可以为本地服务器。
[0026]请参阅图2,图2示出了本申请实施例提供的一种模型的量化训练方法的方法流程图,该模型的量化训本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种模型的量化训练方法,其特征在于,包括:向预先获取的待量化模型输入样本数据,输出预测数据;基于所述预测数据和所述样本数据对应的标准数据计算第一损失函数,对所述第一损失函数引入正则化项,得到第二损失函数,所述正则化项用于对所述待量化模型中各个权重参数进行限制;基于所述预测数据和所述样本数据对应的标准数据,根据所述第二损失函数训练所述待量化模型。2.根据权利要求1所述的模型的量化训练方法,其特征在于,在向预先获取的待量化模型输入样本数据,输出预测数据之前,所述方法还包括:向神经网络模型中插入伪量化节点,得到待量化模型。3.根据权利要求1所述的模型的量化训练方法,其特征在于,所述对第一损失函数引入正则化项,得到第二损失函数,包括:将所述待量化模型中各个权重参数的绝对值之和乘以第一正则化项系数,作为正则化项;将所述正则化项与所述第一损失函数求和,得到第二损失函数。4.根据权利要求1所述的模型的量化训练方法,其特征在于,所述对所第一损失函数引入正则化项,包括:将所述待量化模型中各个权重参数的平方和乘以第二正则化项系数,作为正则化项;将所述正则化项与所述第一损失函数求和,得到第二损失函数。5.根据权利要求1所述的模型的量化训练方法,其特征在于,所述对第一损失函数引入正则化项,包括:将所述待量化模型中各个权重参数的绝对值之和乘以第一正则化项系数与各个权重参数的平方和乘以第二正则化项系数求和,作为...
【专利技术属性】
技术研发人员:陈腊梅,王凡祎,
申请(专利权)人:OPPO广东移动通信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。