一种神经网络量化压缩方法及系统技术方案

技术编号：33996635 阅读：29 留言：0更新日期：2022-07-02 11:02

本发明专利技术提出一种神经网络量化压缩方法，包括：获取经过量化处理后待压缩的神经网络数据，对该神经网络数据进行游程全零编码，得到游程压缩数据，其中该游程全零编码包括仅对该神经网络数据中的零字符进行游程编码；对该游程压缩数据进行规范化哈夫曼编码，并对编码结果进行重整，得到规范哈夫曼编码，作为该神经网络数据的压缩结果。本发明专利技术针对量化后神经网络数据具有稀疏性的特点，本发明专利技术对游程编码进行了改进提出了游程全零编码，可以更高效的无损压缩神经网络数据；对哈夫曼树自上而下地进行重整，省去存储完整的哈夫曼树结构，显著降低了查表操作的复杂程度。低了查表操作的复杂程度。低了查表操作的复杂程度。

全部详细技术资料下载

【技术实现步骤摘要】
一种神经网络量化压缩方法及系统

[0001]本专利技术涉及神经网络运算领域，并特别涉及一种基于混合编码的神经网络量化压缩方法及系统。

技术介绍

[0002]近年来，人工智能在信息量和硬件算力双重爆发的背景下迅猛发展，已经日趋成为生产力发展和技术创新的主要推动力。作为人工智能技术的主要分支，神经网络算法为了进一步提高模型精度，已经遇到了结构复杂、参数量和计算量巨大的技术瓶颈，限制了神经网络模型在追求吞吐率和能效比场景下的应用，因此计算效率成为了下一阶段的主要研究目标。目前最有效的神经网络压缩方法结合了低精度和稀疏化，能够在一定程度上减少神经网络的参数量，但是无法进一步挖掘剪枝和量化后的神经网络模型中的数据冗余。
[0003]剪枝(Pruning)，如图1所示，也可以称作模型稀疏化，即直接将神经网络当中重要性较低的一部分参数裁剪为0，与这部分参数有关的计算也都被屏蔽，按照裁剪的基本单元可以分为单个参数剪枝和结构化参数剪枝。
[0004]量化(Quantization)，如图2所示，也可以称作模型低比特化，即低精度...

【技术保护点】

【技术特征摘要】
1.一种神经网络量化压缩方法，其特征在于，包括：步骤1、获取经过量化处理后待压缩的神经网络数据，对该神经网络数据进行游程全零编码，得到游程压缩数据，其中该游程全零编码包括仅对该神经网络数据中的零字符进行游程编码；步骤2、对该游程压缩数据进行规范化哈夫曼编码，并对编码结果进行重整，得到规范哈夫曼编码，作为该神经网络数据的压缩结果。2.如权利要求1所述的神经网络量化压缩方法，其特征在于，该游程全零编码的游程位宽为2bit；该游程全零编码进一步包括：对该神经网络数据中的零数据进行游程编码，得到第一中间数据；将该第一中间数据的游程为3的编码片段替换为ZeroLiteral字符，得到第二中间数据；判断该第二中间数据中与该ZeroLiteral字符相同的字符是否为该神经网络数据中的原字符，若是，则将该第二中间数据中与该ZeroLiteral字符相同的字符替换为ZeroExtra字符，同时在其后增加表示其为原字符的标志位，否则将该第二中间数据中与该ZeroLiteral字符相同的字符替换为ZeroExtra字符，同时在其后增加表示其为替换字符的标志位。3.如权利要求2所述的神经网络量化压缩方法，其特征在于，该ZeroLiteral字符和该ZeroExtra字符分别为该神经网络数据中出现频率最低的两种字符。4.如权利要求1所述的神经网络量化压缩方法，其特征在于，该编码结果为哈夫曼树；该步骤2包括：对该哈夫曼树自上而下地进行重整，重整具体为将该哈夫曼树同一级节点当中的叶子节点移到二叉树左侧。5.如权利要求1所述的神经网络量化压缩方法，其特征在于，该神经网络数据为神经网络运算中的权值数据和神经元输入数据；若该规范哈夫曼编码大于等于该神经网络数据，则放弃该规范哈夫曼编码，将该神经网络数据直接作为该压缩结果。6.一种神经网络量...

【专利技术属性】
技术研发人员：何皓源，王秉睿，支天，郭崎，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人