【技术实现步骤摘要】
本披露一般涉及人工智能。更具体地,本披露涉及一种用于神经网络模型中浮点量化操作的装置、方法、设备、计算装置、板卡和计算机可读存储介质。
技术介绍
1、当前,随着人工智能的快速发展,深度神经网络(deep neural network,“dnn”)在许多领域取得了显著成就,例如图像分类、目标检测、语音识别和机器翻译。在过去的几十年间,dnn网络模型的规模和计算成本不断扩大,如何对模型进行压缩,以便在资源受限和效率要求较高的平台上进行实时推理成了研究热点。量化作为一种模型压缩技术,实现了较大的压缩比,并且有利于硬件的实现,相较于其他的模型压缩方法有很好的应用前景。
2、在上述的量化操作中,训练后量化(post-training quantization,“ptq”)过程是指对训练好的网络模型直接量化后进行模型推理。相较于对训练好的网络模型进行微调的量化感知训练(quantizationaware training,“qat”)过程,ptq具有时间和算力成本低、应用方便和数据依赖小的优势,但可能存在精度损失的问题。ptq量化过程通
...【技术保护点】
1.一种用于神经网络模型中浮点量化操作的装置,包括:
2.根据权利要求1所述的装置,其中所述混合分布包括均匀分布和高斯分布的组合,其中所述混合拟合电路用于:
3.根据权利要求1所述的装置,其中所述均匀分布的均匀分布参数由所述待进行浮点量化操作的数据中的绝对值最大值来确定,并且所述高斯分布的高斯分布参数由所述待进行浮点量化操作的数据的标准差来确定。
4.根据权利要求3所述的装置,其中所述混合分布还包括混合系数,其用于表征待进行浮点量化操作的数据中分别服从所述均匀分布和高斯分布的数据占比。
5.根据权利要求1所述的装置,其中
...【技术特征摘要】
1.一种用于神经网络模型中浮点量化操作的装置,包括:
2.根据权利要求1所述的装置,其中所述混合分布包括均匀分布和高斯分布的组合,其中所述混合拟合电路用于:
3.根据权利要求1所述的装置,其中所述均匀分布的均匀分布参数由所述待进行浮点量化操作的数据中的绝对值最大值来确定,并且所述高斯分布的高斯分布参数由所述待进行浮点量化操作的数据的标准差来确定。
4.根据权利要求3所述的装置,其中所述混合分布还包括混合系数,其用于表征待进行浮点量化操作的数据中分别服从所述均匀分布和高斯分布的数据占比。
5.根据权利要求1所述的装置,其中在确定与进行浮点量化操作相关的最优量化浮点格式中,所述格式确定电路还用于:
6.根据权利要求5所述的装置,其中在根据所述混合拟合分布确定拟合均方误差中,所述格式确定电路还用于:
7.根据权利要求6所述的装置,其中所述最优量化浮点格式包括指数位数和尾数位数,并且所述最优量化浮点格式满足以下等式:
8.根据权利要求1所述的装置,其中所述神经网络模型包括多个层,并且所述装置还包括:
9.根据权利要求8所述的装置,还包括:
10.根据权利要求9所述的装置,其中在所述单一拟合分布与所述混合拟合分布的比较,在所述最优量化浮点格式或常规浮点格式间选择适用于所述神经网络模型各层中的待进行浮点量化操作的量化浮点格式中,所述量化选择电路还用于:
11.根据权利要求10所述的装置,其中在根据所述比较结果来选择所述最优量化浮点格式或者常规浮点格式中,所述量化选择电路还用于:
12.根据权利要求1-11的任意一项所述的装置,其中所述数据包括神经网络模型中的权重参数。
13.一种用于神经网络模型中浮点量化操作的方法,包括:
14.根据权利要求13所述的方法,其中所述混合分布包括均匀分布和高斯分布的组合,并且使用混合分布对所述待进行浮点量化操作的数据执行混合拟合操作,以获得对应的混合拟合分布包括:<...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:寒武纪西安集成电路有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。