一种适配于运行在FPGA上的神经网络加速器的自适应量化方法技术

技术编号：32161485 阅读：53 留言：0更新日期：2022-02-08 15:14

本发明专利技术公开了一种适配于运行在FPGA上的神经网络加速器的自适应量化方法，属于神经网络领域。本发明专利技术根据神经网络加速器计算过程的实际位宽自动预判神经网络加速器计算时的溢出程度，并针对溢出的程度自适应的调整量化参数，避免神经网络算法在FPGA上计算过程中数据溢出问题的发生，从而保证神经网络模型结果的正确性。本发明专利技术的自适应量化方法，将量化操作与神经网络加速器硬件的资源规划相结合，保证了在神经网络加速器部署算法时结果的正确性，在不损失模型精度和执行效率的前提下，能够有效压缩模型规模，使之在资源受限的情况下易于部署实施，节省存储空间和计算资源，具有重要的研究意义和应用价值。的研究意义和应用价值。的研究意义和应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种适配于运行在FPGA上的神经网络加速器的自适应量化方法

[0001]本专利技术属于神经网络领域，尤其是一种适配于运行在FPGA上的神经网络加速器的自适应量化方法。

技术介绍

[0002]神经网络加速器为实现高速低功耗运算，一般支持低数值精度，如8位或6 位定点数的运算，而神经网络模型原始的数值精度一般为32位浮点数。因此，在神经网络加速器部署神经网络算法时，需要通过量化操作将神经网络模型自动化压缩为8位或6位整型网络。
[0003]国外巨头公司英伟达基于其完备的GPU+CUDA生态主导神经网络加速器市场，将浮点型数据映射为整型数据，但其产品售价高昂，不具备自主可控性，GPU 计算效能及功耗不如FPGA及ASIC芯片。国内神经网络加速器主流方案为具有可扩展性的CPU+FPGA的国产化方案，神经网络模型运行在FPGA上完成计算，与CPU相对独立，CPU主要功能为初始化模型以及读取模型结果。针对该架构，为了提高计算的有效性，FPGA需要自主完成整个神经网络模型每一层数据量化后的计算过程。现有的量化方法是由量化软件预先分析神经网络模型各层输入、权重以及输出数据的分布和范围，计算出量化参数，生成神经网络加速器将浮点型数据映射成整型数据的指导文件，该过程并未考虑在FPGA上部署时整数型数据运算过程中可能产生的溢出问题，无法确保计算结果的正确性，尤其是对精度要求较高的神经网络模型算法，将导致结果的巨大偏差。

技术实现思路

[0004]本专利技术的目的在于克服现有的量化方法并未考虑在FPGA上部署时整数型...

【技术保护点】

【技术特征摘要】
1.一种适配于运行在FPGA上的神经网络加速器的自适应量化方法，其特征在于，根据卷积层的输入和权重值、FPGA计算过程中的数据位宽，预判中间计算过程数据的范围和分布；基于FPGA计算过程中的实际计算位宽和所述中间计算过程数据的范围和分布，计算溢出程度；基于溢出程度，采用KL
‑
divergence的方法，自适应地调整量化参数，直至调整量化参数后数据的分布与原始数据分布的差异在预设范围内。2.根据权利要求1所述的适配于运行在FPGA上的神经网络加速器的自适应量化方法，其特征在于，根据KL
‑
divergence方法调整量化参数，采用相对熵的方式衡量调整量化参数后数据分布与原始数据分布的差异程度，寻找最优阈值作为量化参数。3.根据权利要求2所述的适配于运行在FPGA上的神经网络加速器的自适应量化方法，其特征在于，设置用于构造新样本的循环计数i，不断构造参考样本P和新样本Q，计算两者的相对熵，得到最小的相对熵，此时，对应的阈值即为最优阈值。4.根据权利要求3所述的...

【专利技术属性】
技术研发人员：魏璐，马钟，王月娇，杨超杰，
申请(专利权)人：西安微电子技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人