一种高精度的神经网络量化压缩方法技术

技术编号：19935235 阅读：21 留言：0更新日期：2018-12-29 04:55

本发明专利技术公开的是一种高精度的神经网络量化压缩方法，该方法包括如下步骤：统计数据范围并对数据范围向内压缩以保证准确率不变的情况下每一层的数据范围向内压缩到最小；采用无符号的索引量化代替有符号的值量化以提升运算精度，避免造成量化空间浪费；采用索引代替真实值进行计算已进行索引和值之间的转换，本发明专利技术可以将量化宽度压缩到8比特及其以下的同时保存很高的计算精度，对最终的影响非常小，可以使得深度学习网络模型可以在嵌入式设备上得以部署运行。

全部详细技术资料下载

【技术实现步骤摘要】
一种高精度的神经网络量化压缩方法
本专利技术涉及一种压缩方法，更具体一点说，涉及一种高精度的神经网络量化压缩方法，属于人工智能神经网络深度学习

技术介绍
近年来，在语音、图像和自然语言处理等领域，深度学习的发展逐渐成熟并得到了广泛的应用，尤其是受到动物视觉模型启发而专利技术的卷积神经网络(ConvolutionalNeuralNetworks,CNN)在计算机视觉领域得到最为广泛的使用。目前的卷神经网络模型在著名的ImageNet问题上已经取得了世界性的最好结果，其使得对于图像识别的领域研究更进一步，对于现在的深度学习网络模型已经能够理解和识别一般的自然图像，但是深度学习网络模型在落地过程中还存在一些限制，因为深度学习网络模型的层数深、参数多、计算量大，所以往广大的嵌入式终端设备上部署的时候，在存储空间、计算资源和内存消耗等多个方面都遇到瓶颈，要想让深度学习网络模型可以在嵌入式终端设备上落地，必须对浮点模型进行量化和压缩，就是用低位宽(小于8bit)的定点数来代替浮点运算。传统的量化压缩方案基本步骤如下：首先，选取一批测试样本进行前向运算以统计数据范围，然后再根据统计所得的数据范围决定对应的定点位置Qn，保证数据都不溢出，再然后采用公式xq＝(int)x·2Q将浮点数据转成对应的定点数据，再用转换后的定点值进行卷积运算。其中Q格式表示为Qm.n，表示数据用m比特表示整数部分，n比特表示小数部分，共需要m+n+1位来表示这个数据，多余的一位用作符号位，假设小数点在n位的左边(从右向左数)，从而确定小数的精度。例如Q15表示小数部分有15位，一个sh...

【技术保护点】
1.一种高精度的神经网络量化压缩方法，其特征在于该方法包括如下步骤：S1：统计数据范围并对数据范围向内压缩：选取部分样本数据作为测试集输入的神经网络，对测试集中的神经网络从输入层到隐藏层再到输出层前向计算一遍，将输出层获得的准确率作为基准分；统计每一层的数据范围，获得最大值fmax、最小值fmin和设定的量化位宽bw，根据每一层数据的最大值fmax、最小值fmin和量化位宽bw分别计算获得一个搜索步长，采用每一层获得的搜索步长对每一层数据范围进行向内收缩搜索以节省量化空间和范围，并对每一层数据搜索都在测试集上计算出一次准确率，选择测试集上计算获得的最大准确率与基准分进行比较，当偏差大于设定的阈值则停止搜索；S2：网络量化压缩：根据每一层数据的最大值fmax、最小值fmin和量化位宽bw分别计算获得每一层数据的量化步长，并通过每一层数据的量化步长、最小值fmin以及最大值fmax、最小值fmin间的浮点值fdata计算获得浮点值fdata对应的无符号索引以实现采用无符号的索引量化；S3：基于索引前向计算：计算出无符号索引和该无符号索引对应的浮点值fdata之间的系数偏差C1和直流偏差C2...

【技术特征摘要】
1.一种高精度的神经网络量化压缩方法，其特征在于该方法包括如下步骤：S1：统计数据范围并对数据范围向内压缩：选取部分样本数据作为测试集输入的神经网络，对测试集中的神经网络从输入层到隐藏层再到输出层前向计算一遍，将输出层获得的准确率作为基准分；统计每一层的数据范围，获得最大值fmax、最小值fmin和设定的量化位宽bw，根据每一层数据的最大值fmax、最小值fmin和量化位宽bw分别计算获得一个搜索步长，采用每一层获得的搜索步长对每一层数据范围进行向内收缩搜索以节省量化空间和范围，并对每一层数据搜索都在测试集上计算出一次准确率，选择测试集上计算获得的最大准确率与基准分进行比较，当偏差大于设定的阈值则停止搜索；S2：网络量化压缩：根据每一层数据的最大值fmax、最小值fmin和量化位宽bw分别计算获得每一层数据的量化步长，并通过每一层数据的...

【专利技术属性】
技术研发人员：葛益军，王军，朱旭东，
申请(专利权)人：杭州雄迈集成电路技术有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人