【技术实现步骤摘要】
本公开涉及人工智能,尤其涉及一种神经网络模型的量化方法、装置、电子设备以及存储介质。
技术介绍
1、目前,神经网络模型运行时需要消耗较多的计算资源,且当神经网络模型的规模较大时(如大模型),对应的处理速度较慢,在计算资源较为紧张时会导致模型服务的使用体验下降。基于此,为减小神经网络模型运行占用的系统资源,提升神经网络模型的使用体验,在神经网络模型部署前需要对神经网络模型进行量化。
2、现有技术中,量化过程为:获取浮点模型,并使用最小最大值方法计算权重量化缩放因子,使用kl散度(kullback-leibler divergence)算法计算激活值量化缩放因子,然后根据余弦距离确定最优权重量化缩放因子和最优激活值量化缩放因子,再输出带量化信息的模型。
3、但是,上述现有技术中单一量化缩放因子可能不适应于神经网络模型中所有网络层,基于此,单一量化缩放因子可能会引入较大误差,降低了模型精确度。
技术实现思路
1、本公开提供了一种神经网络模型的量化方法、装置、电子设备以及存
...【技术保护点】
1.一种神经网络模型的量化方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述通过多种不同量化算法根据所述第一模型推理结果,确定所述待量化的神经网络模型中各网络层的量化参数,包括:
3.如权利要求2所述的方法,其特征在于,所述待量化的神经网络模型,利用所述各网络层对应的多个初始截断值进行逐层模型推理,确定所述各网络层对应的目标截断值,包括:
4.如权利要求1所述的方法,其特征在于,所述基于所述各网络层的量化参数,生成所述待量化的神经网络模型对应的目标量化模型,包括:
5.如权利要求4所述的方法,其特征在
...【技术特征摘要】
1.一种神经网络模型的量化方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述通过多种不同量化算法根据所述第一模型推理结果,确定所述待量化的神经网络模型中各网络层的量化参数,包括:
3.如权利要求2所述的方法,其特征在于,所述待量化的神经网络模型,利用所述各网络层对应的多个初始截断值进行逐层模型推理,确定所述各网络层对应的目标截断值,包括:
4.如权利要求1所述的方法,其特征在于,所述基于所述各网络层的量化参数,生成所述待量化的神经网络模型对应的目标量化模型,包括:
5.如权利要求4所述的方法,其特征在于,所述对所述第一目标量化模型进行第一量化误差分析,并基于得到的第一量化误差结果生成第二目标量化模型,包括:
6.如权利要求5所述的方法,其特征在于,所述对所...
【专利技术属性】
技术研发人员:张晓琳,尹玄武,张博宇,
申请(专利权)人:上海玄戒技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。