当前位置: 首页 > 专利查询>江苏思远集成电路与智能技术研究院有限公司专利>正文

一种基于FPGA的改进神经网络硬件加速方法及装置制造方法及图纸

技术编号：36216233 阅读：25 留言：0更新日期：2023-01-04 12:13

本发明专利技术涉及图像处理技术领域，尤其涉及一种基于FPGA的改进神经网络硬件加速方法及装置，包括通过迁移学习、数据增强、多尺度训练、余弦退火对SSD_MobilenetV1网络进行训练；对训练后的SSD_MobilenetV1网络进行结构化剪枝，以卷积核或每个网络层为基本单位进行剪枝；采用QAT算法，引入伪量化的操作进行训练，用于模拟量化过程的误差；将量化后的SSD_MobilenetV1网络转换为计算图。本发明专利技术同时使用FPGA和ARM处理器对模型进行推理，将卷积网络模型中耗时的卷积算子在FPGA执行，其它算子在ARM处理器中执行，能够实现网络模型的快速推理，并且功耗较低，利于部署到终端。利于部署到终端。利于部署到终端。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于FPGA的改进神经网络硬件加速方法及装置

[0001]本专利技术涉及图像处理
，尤其涉及一种基于FPGA的改进神经网络硬件加速方法及装置。

技术介绍

[0002]神经网络已经被广泛应用于图像处理领域进行对目标的识别，而基于深度卷积神经网络的图像处理模型往往具有很大的参数量和计算量。对于传统的通用处理器，比如中央处理器(Central Processing Unit，CPU)，有着丰富的控制逻辑，能够进行各种运算，进而支持各种模型的运行，但是只有少量的逻辑计算单元，计算资源较少，当用于网络模型推理时效率低，速度慢；对于并行处理器，比如图形处理器(Graphics Processing Unit，GPU)，能够进行数据的并行快速计算，加快模型的推理速度，但是体积大，功耗高，并且价格昂贵，难以应用在终端领域；对于专用硬件ASIC(专用集成电路)，能够实现各类资源自行分配，达到更块的计算速度并且更低的功耗，推理时间大大加快，但是由于开发周期长，难以应用新的技术和网络。
[0003]而FPGA(现场可编程逻辑阵列)，能够达到高推理速度，低功耗，低成本的要求，但是更换网络模型时往往需要重新设计结构，对网络模型的适应性较弱。

技术实现思路

[0004]针对现有算法的不足，本专利技术同时使用FPGA和ARM处理器对模型进行推理，将卷积网络模型中耗时的卷积算子在FPGA执行，其它算子在ARM处理器中执行，能够实现网络模型的快速推理，并且功耗较低，利于部署到终端，同时对其它除SSD_Mobilene...

【技术保护点】

【技术特征摘要】
1.一种基于FPGA的改进神经网络硬件加速方法，其特征在于，包括以下步骤：步骤一、通过迁移学习、数据增强、多尺度训练、余弦退火对SSD_MobilenetV1网络进行训练；步骤二、对训练后的SSD_MobilenetV1网络进行结构化剪枝，以卷积核或每个网络层为基本单位进行剪枝；步骤三、采用QAT算法，引入伪量化的操作进行训练，用于模拟量化过程的误差；步骤四、将量化后的SSD_MobilenetV1网络转换为计算图。2.根据权利要求1所述的基于FPGA的改进神经网络硬件加速方法，其特征在于，余弦退火的函数学习率公式为：其中，和表示学习率的范围，T
cur
表示距离上次重启经过的训练轮次，T
i
表示第i次重启需要训练的轮次。3.根据权利要求1所述的基于FPGA的改进神经网络硬件加速方法，其特征在于，步骤二具体包括：从第i个卷积层剪掉m
i
个卷积核，过程为：S21、对每个卷积核F
i,j
，计算卷积核的权重绝对值之和：其中，K
l
表示卷积核的第l层，n
i
为卷积核的层数；S22、根据s
j
排序；S23、将m
i
个权重绝对值之和最小的卷积核以及对应的特征层剪掉，移除下一个卷积层中与剪掉的特征层相关的卷积核；S24、创建第i层和第i+1层的新的权重矩阵；S25、当对多层同时剪枝时，采用贪心策略，剪枝过后，模型结构发生变化，再次进行训练，并采用交替剪枝和训练，逐层或逐卷积核剪枝。4.根据权利要求1所述的基于FPGA的改进神经网络硬件加速方法，其特征在于，步骤三具体包括：在反向传播的过程中，weight在输入卷积之前进行量化，如果有Batch Normalization层，就将Batch Normalization层融入到weight中，激活值在激活函数执行完成后再进行量化；其中，浮点数和8bit定点数...

【专利技术属性】
技术研发人员：宋政伟，孙莉，于淼，张元淳，侯俊，郑培清，张国和，
申请(专利权)人：江苏思远集成电路与智能技术研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人