一种基于FPGA的通用卷积神经网络加速器实现方法技术

技术编号：37362495 阅读：8 留言：0更新日期：2023-04-27 07:10

本发明专利技术涉及深度学习、嵌入式机器视觉领域，特别是涉及一种基于FPGA的通用卷积神经网络加速器实现方法，包括处理器系统和可编程逻辑两部分，硬件平台采用XILINX的ZYNQ系列FPGA，在FPGA的处理器系统侧设计控制算法，在FPGA的可编程逻辑侧设计RTL卷积神经网络加速器IP，硬件系统中包含摄像头和VGA接口，对摄像头采集的图像进行识别，并将结果通过VGA接口输出到外接屏幕。本发明专利技术根据FPGA资源做了细粒度的优化，并且在精度满足要求的情况下，大量节约了资源，极大的提高了卷积神经网络的前向推理速度，具有更高的能效比。可根据本方法的架构进行拓展和裁剪，以便于对应更高和更低资源的FPGA。源的FPGA。源的FPGA。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于FPGA的通用卷积神经网络加速器实现方法

[0001]本专利技术涉及深度学习、嵌入式机器视觉领域，特别是涉及一种基于FPGA的通用卷积神经网络加速器实现方法。

技术介绍

[0002]目前，深度学习特别是卷积神经网络在目标检测和识别领域得到了广泛应用。随着卷积神经网络模型结构的复杂性增加和识别精度的提高，对部署平台的算力提出了挑战。目前，该类算法的部署几乎都以GPU为主，而难以在嵌入式平台以及低端的CPU运行，从而导致高性能的模型难以在基于嵌入式设备的移动端实现。另一方面，尽管ASIC芯片具有高算力，高能效等优点，可以在特定领域内代替GPU，但是ASIC的开发周期长，而神经网络的架构更新较快，导致硬件的迭代周期无法满足算法的要求。因此，FPGA以其并行性和计算结构的可快速重构性，以及低功耗，高能效的优点，为深度学习算法的部署提供了新的思路。同时卷积神经网络具有计算单一性的特点，这使得FPGA可以很容易做并行加速，从而满足高算力的要求。

技术实现思路

[0003]为解决上述问题，本专利技术提供一种基于FPGA的通用卷积神经网络加速器实现方法，其特征是异构计算，可拓展。所述异构即本专利技术所述方法采用软硬协同的方式设计了一种通用的卷积神经网络加速器架构，在FPGA的处理器系统侧设计了控制算法，在FPGA的可编程逻辑侧设计了RTL卷积神经网络加速器IP，通过配置可实现对不同网络模型的加速。
[0004]本专利技术的技术方案：
[0005]一种基于FPGA的通用卷积神经网络加速器实现方法...

【技术保护点】

【技术特征摘要】
1.一种基于FPGA的通用卷积神经网络加速器实现方法，其特征在于，包括处理器系统和可编程逻辑两部分，硬件平台采用XILINX的ZYNQ系列FPGA，在FPGA的处理器系统侧设计控制算法，在FPGA的可编程逻辑侧设计RTL卷积神经网络加速器IP，硬件系统中包含摄像头和VGA接口，对摄像头采集的图像进行识别，并将结果通过VGA接口输出到外接屏幕；所述处理器系统包括CORTEX
‑
M0的处理器内核、DMA、DDR控制器、DDR芯片、SDIO控制器，以及处理器运行控制算法和摄像头驱动程序；所述处理器运行控制算法包括在中断服务函数中根据网络层数关系计算对应的参数地址，DMA发送和接收的地址和使能信号，以及对RTL卷积神经网络加速器IP控制寄存器的写操作，所有的参数都保存在各自的数组中，每次计算需要的参数为数组中的一段数据，而参数要通过DMA发送给RTL卷积神经网络加速器IP，所以每次计算前要将所需数据对应的地址给到DMA，DMA把该段地址的数据发送给RTL卷积神经网络加速器IP，另外还要通过AXI_lite协议来配置加速器的计算模式，AXI_lite协议用4个32BIT的寄存器，将寄存器译码成需要的控制信息，传给RTL卷积神经网络加速器IP；所述RTL卷积神经网络加速器IP包括矩阵生成模块、padding模块、DSP阵列模块、重量化模块、池化模块、AXI总线模块和多个片上缓存；片上缓存包括输入特征图缓存、权重缓存、偏置缓存、中间结果缓存和输出特征图缓存，其中权重缓存、输入图像缓存及输出图像缓存均为8BIT，偏置缓存为16BIT，中间结果缓存为32BIT；加速器的输入输出为AXI_lite协议和AXI_stream协议接口；矩阵生成模块是在输入特征图上提取滑动窗口；padding模块采用硬件padding模式，用于在图像周围补零；DSP阵列模块为加速器的计算单元，用于并行加速乘累加操作；重量化模块是将计算完的高BIT数据量化为8BIT，以便下一层直接计算；池化模块即降采样，用于压缩特征图，提取特征；AXI总线模块包含AXI_lite模块和AXI_stream模块，AXI_lite模块用于传递控制信息，AXI_stream模块用于传递数据流；多个片上缓存用于量化后参数的存放以及输入特征图、中间计算结果和输出特征图的缓存；所述矩阵生成模块由两个同步FIFO及外围控制电路构成；将FIFO首尾相连，数据依次进入第一个FIFO，第一个FIFO的输出将控制在下一行开始，并将读出的数据写入第...

【专利技术属性】
技术研发人员：陈聪聪，马艳华，陈晓明，徐琪灿，宋泽睿，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人