一种神经网络加速器模型量化方法技术

技术编号：32546382 阅读：11 留言：0更新日期：2022-03-05 11:44

本发明专利技术公开了一种神经网络加速器模型量化方法，包括如下步骤：步骤一、训练一个Float32型CNN模型；步骤二、量化模型权重值；步骤三、通过在校准数据集上进行模型推理计算，统计不同网络层输出值大小范围；步骤四、计算量化因子，基于得到的量化权重值与量化因子，根据不同网络层的量化推理计算方式，进行INT8量化推理计算。整个推理过程为INT8型计算，能够大幅提升模型在神经网络加速器上的推理速度，且使用YOLOv3模型测试量化后INT8模型较原Float32模型精度损失非常小。Float32模型精度损失非常小。Float32模型精度损失非常小。

全部详细技术资料下载

【技术实现步骤摘要】
一种神经网络加速器模型量化方法

[0001]本专利技术涉及人工智能领域，尤其是涉及一种神经网络加速器模型量化方法。

技术介绍

[0002]神经网络模型目前在很多领域都有着很广泛的应用，但由于神经网络模型深度大，参数量多，计算量大，导致很多应用只能靠服务器端来部署，这大大制约了很多模型的落地部署。基于这些问题，目前神经网络加速器是很多科研机构和企业研究的热点。但是目前常见的量化方法都是基于CPU、GPU等设备进行设计的，无法充分适用于神经网络加速器这类ASIC（Application Specific Integrated Circuit）设备。

技术实现思路

[0003]为解决现有技术的不足，本专利技术通过对常见浮点模型进行权重值及输出值量化，在推理过程中将所有的浮点运算转化为整型计算，实现大幅降低神经网络加速器的内存带宽，提高计算速度的目的，本专利技术采用如下的技术方案：一种神经网络加速器模型量化方法，包括如下步骤：S1，训练Float32位浮点型神经网络模型，并将部分测试数据集作为校准数据集；S2，对模型的浮点型权重值进行量化，将Float32位的浮点值量化得到INT8位整型权重值；S3，在校准数据集上，使用浮点模型进行模型的推理计算，对模型各层浮点型输出值进行模拟量化，并统计各层输出值范围；S4，通过各层输出值范围，得到量化因子，根据本层量化的权重值和量化因子，直接对模型进行INT8全整型推理计算。
[0004]进一步地，量化的公式如下：其中，q表示量化后的8位整数，round( )表示...

【技术保护点】

【技术特征摘要】
1.一种神经网络加速器模型量化方法，其特征在于包括如下步骤：S1，训练浮点型神经网络模型，并将部分测试数据集作为校准数据集；S2，对模型的浮点型权重值进行量化，得到整型权重值；S3，在校准数据集上，使用浮点模型进行模型的推理计算，对模型各层浮点型输出值进行模拟量化，并统计各层输出值范围；S4，对于每一个网络层，基于输入值范围、输出值范围，计算该层的量化因子，最后使用所有层的量化因子对模型进行全整数推理计算。2.根据权利要求1所述的一种神经网络加速器模型量化方法，其特征在于所述量化的公式如下：其中，q表示量化后的整数，round( )表示四舍五入取整操作，f表示浮点数，s、z表示量化系数。3.根据权利要求2所述的一种神经网络加速器模型量化方法，其特征在于所述S4中，计算得到的量化系数：，，和表示每一个网络层量化前浮点型输出的最大值和最小值，和表示量化后整型输出值的最大值和最小值，通过量化系数，得到量化因子。4.根据权利要求3所述的一种神经网络加速器模型量化方法，其特征在于所述S4中，计算CNN模型中卷积层的量化系数，得到量化因子，表示权重值量化系数，表示本层输入值量化系数，表示本层输出值量化系数。5.根据权利要求3所述的一种神经网络加速器模型量化方法，其特征在于所述S4中，计算CNN模型中残差、路由层的输出量化系数，得到量化因子，表示本层输入值量化系数，表示本层输出值量化系数，由于残差、路由层都是两个输入，因此会得到两个量化因子和。...

【专利技术属性】
技术研发人员：凡军海，朱国权，杨方超，陆启明，金孝飞，孙世春，章明，何煜坤，马德，胡有能，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人