模型的量化方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36872561 阅读:32 留言:0更新日期:2023-03-15 20:08
本公开是关于一种模型的量化方法、装置、电子设备及存储介质,所述方法包括:从备选量化策略集中选择量化策略,其中,所述备选量化策略集中包括至少一个量化策略;基于选择的所述量化策略执行模型的量化,获得量化后的所述模型;确定量化后的所述模型的模型精度;基于所述模型精度,确定是否重新量化所述模型。这里,可以从备选量化策略集中选择量化策略执行模型的量化,且可以基于量化后所述模型的模型精度确定是否重新量化所述模型,相较于采用单一量化策略对模型进行量化输出的方式,可以提升所述模型的精度。升所述模型的精度。升所述模型的精度。

【技术实现步骤摘要】
模型的量化方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能(AI,Artificial Intelligence)
,尤其涉及一种模型的量化方法、装置、电子设备及存储介质。

技术介绍

[0002]低比特算力是AI芯片上提升最快的算力,AI模型的低比特量化是AI落地的关键一步。相较于直接部署其他模型(例如,fp32模型),AI模型的低比特量化有数据校准、量化转换等多个额外操作,且模型量化后一般都会有精度劣化的问题。因此,需要对多个步骤进行反复的迭代,确定最佳的量化策略组合。相关技术中,实现繁琐、效率低且容易出错。

技术实现思路

[0003]根据本公开实施例的第一方面,提供一种模型的量化方法,所述方法包括:
[0004]从备选量化策略集中选择量化策略,其中,所述备选量化策略集中包括至少一个量化策略;
[0005]基于选择的所述量化策略执行模型的量化,获得量化后的所述模型;
[0006]确定量化后的所述模型的模型精度;
[0007]基于所述模型精度,确定是否重新量化所述模型。
...

【技术保护点】

【技术特征摘要】
1.一种模型的量化方法,其特征在于,所述方法包括:从备选量化策略集中选择量化策略,其中,所述备选量化策略集中包括至少一个量化策略;基于选择的所述量化策略执行模型的量化,获得量化后的所述模型;确定量化后的所述模型的模型精度;基于所述模型精度,确定是否重新量化所述模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述模型精度,确定是否输出所述模型,包括:响应于所述模型精度大于精度阈值,输出所述模型;或者,响应于所述模型精度小于精度阈值,重新选择量化策略量化所述模型。3.根据权利要求1所述的方法,其特征在于,所述备选量化策略集包括以下至少之一:基础策略,为整个量化过程中始终生效的量化策略;多参数组合策略,为包括多种基本量化参数的策略;以及精度劣化层搜索策略,为基于二分搜索劣化区域的策略。4.根据权利要求3所述的方法,其特征在于,所述从备选量化策略集中选择量化策略,包括:响应于基于所述基础策略和所述多参数组合策略获得的量化模型的精度小于精度阈值,从所述备选量化策略集中选择精度劣化层搜索策略。5.根据权利要求4所述的方法,其特征在于,响应于从所述备选量化策略集中选择精度劣化层搜索策略,所述方法还包括:将所述模型的算法网络分割成预定数量的分段;基于分割点将所述分段划分成第一部分网络和第二部分网络,其中,所述第一部分网络为需要量化的网络,所述第二部分网络为非量化的网络;基于获得的所述模型精度移动所述分割点;所述基于选择的所述量化策略执行模型的量化,获得量化后的所述模型,包括:基于精度劣化层搜索策略和所述分割点执行所述模型的量化,获得量化后的所述模型。6.根据权利要求5所述的方法,其中,所述基于获得的所述模型精度移动所述分割点,包括:响应于所述模型精度大于精度阈值,向扩大所述需要量化的网络的方向移动所述分割点;或者,响应于所述模型精度小于精度阈值,向缩小所述需要量化的网络的方向移动所述分割点。7.一种模型的量化装置,其特征在于,所述装置包括:选择模块,用于从备选量化策略集中选择量化策略,其中,所述备选量化策略集中包括至少一个量化策略;获取模块,用...

【专利技术属性】
技术研发人员:汪学川侯雨张卿麒向玢路满
申请(专利权)人:北京算能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1