一种基于FPGA的神经网络加速器实现方法技术

技术编号：41205860 阅读：7 留言：0更新日期：2024-05-07 22:32

本发明专利技术涉及卷积神经网络技术领域，尤其涉及一种基于FPGA的神经网络加速器实现方法，方法包括：所述数据存储模块，用于存储卷积神经网络的权重参数、偏置参数和输入特征图；所述卷积神经网络计算模块，用于对所述输入特征图进行卷积、激活、池化操作；所述数据控制模块，用于管理各模块之间以及与所述数据存储模块之间的数据传输和控制操作。通过本发明专利技术，以最大化并行计算能力和最小化资源，实现了卷积神经网络的并行流水线化，可以更有效地利用FPGA上的计算和存储资源，可以提高神经网络的处理速度和效率，为神经网络的推理操作，提供了有效的硬件加速方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及卷积神经网络，尤其涉及一种基于fpga的神经网络加速器实现方法。

技术介绍

1、近年来，人工智能领域取得了突破性进展，特别是在机器学习方面，深度学习作为机器学习的重要分支，以其能够学习多层次抽象特征的特点，在解决复杂抽象问题上表现突出。然而，随着问题的不断复杂化和抽象化，深度学习模型变得更加复杂，导致训练时间的显著增加，因此，低功耗的深度学习加速算法研究成为当下的热点趋势。研究者们致力于寻找方法，以在保证模型性能的前提下，显著提升训练速度，降低资源消耗。这一领域的不断探索将为深度学习技术的进一步发展打下坚实基础。

2、fpga内部包含大量的逻辑门和内存单元，能够实现高度并行化的计算。这对于深度学习任务中的大规模矩阵运算非常重要，可以加速模型训练和推断。fpga在一些特定任务上可以取得比通用处理器和gpu更高的性能／功耗比，尤其在一些特定的模型或算法中，fpga的优势尤为明显。fpga的开发周期相对较短，可以通过重新编程来快速迭代和优化深度学习模型，因此一种基于fpga的神经网络加速器实现方法成为目前研究的重要内容。

技术实现思路

1、本专利技术提供了一种基于fpga的神经网络加速器实现方法，可有效解决
技术介绍
中的问题。

2、为了达到上述目的，本专利技术所采用的技术方案是：

3、一种基于fpga的神经网络加速器实现方法，其特征在于，包括数据存储模块、卷积神经网络计算模块和数据控制模块；

4、所述数据存储模块，用于存储卷积神

5、所述卷积神经网络计算模块，用于对所述输入特征图进行卷积、激活、池化操作；

6、所述数据控制模块，用于管理各模块之间以及与所述数据存储模块之间的数据传输和控制操作。

7、进一步地，所述数据存储模块包括fpga片缓存单元、外部存储器和输出特征缓存区；

8、所述fpga片输入缓存单元用来缓存所述权重参数和所述输入特征图；

9、所述外部存储器用来缓存所述偏置参数；

10、所述fpga片输出特征缓存区用来缓存由所述卷积神经网络计算得到的中间结果。

11、进一步地，所述神经网络计算模块包括卷积模块、池化模块和全连接模块；

12、所述卷积模块，采用im2col卷积，通过滑动卷积核，将每个所述卷积核覆盖的区域拉伸成一列，从而得到一个矩阵，所述矩阵用于与所述卷积核的权重矩阵相乘，通过矩阵乘法对所述输入特征图实现卷积操作，得到卷积输出特征图；

13、所述池化模块，选用的是最大池化，将所述卷积输出特征图作为所述池化模块的输入，通过在每个池化窗口中选择最大值来降低所述卷积输出特征图的空间维度；

14、所述全连接模块，其配置为kx=kx=1，s=1的特殊卷积层，其中，kx, ky是卷积核的宽高，s是步长。

15、进一步地，包括将批量标准化层和所述卷积模块进行融合，将批归一化层置于所述卷积模块之后、激活函数之前，来加快训练收敛，并应用所述激活函数对标准化后的输出进行非线性映射，引入非线性关系，使得网络更能捕捉复杂的模式和特征。

16、进一步地，还包括在所述卷积模块中将卷积计算转换为所述矩阵乘法计算时，对激活值和所述权重参数进行稀疏化约束。

17、进一步地，所述池化模块使用四个嵌套循环，遍历所述卷积输出特征图的高度、宽度以及所述池化窗口的行和列。

18、进一步地，还包括在所述卷积模块中，使用short input_buffer、short weight_buffer和int output_buffer作为临时变量；在所述池化模块中，使用short input_val和int output_val作为临时变量。

19、进一步地，还包括在所述卷积操作和所述池化操作中采用乒乓缓冲操作，以提高计算的并行性。

20、进一步地，所述数据控制模块有多个axi master接口和一个axi lite slave接口，通过所述axi lite slave接口进行对控制、数据和状态寄存器的读写，通过多个所述axi master接口同时执行对所述输入特征图的并行读取和对输出特征图的写回操作，通过一个特定的所述aximaster接口专门负责每层所述权重参数的读取。

21、进一步地，所述数据控制模块还包括数据分发单元和数据收集单元；

22、所述数据分发单元负责协调多个读通道的dma来完成所述输入特征图的读取；

23、所述数据收集单元负责协调多个写通道的dma，以实现对所述输出特征图的有效写入操作。

24、通过本专利技术的技术方案，可实现以下技术效果：

25、本专利技术将卷积神经网络部署在fpga上，以最大化并行计算能力和最小化资源，实现了卷积神经网络的并行流水线化，可以更有效地利用fpga上的计算和存储资源，可以提高神经网络的处理速度和效率，为神经网络的推理操作，提供了有效的硬件加速方法。

26、上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种基于FPGA的神经网络加速器实现方法，其特征在于，包括数据存储模块、卷积神经网络计算模块和数据控制模块；

2.根据权利要求1所述的一种基于FPGA的神经网络加速器实现方法，其特征在于，所述数据存储模块包括FPGA片缓存单元、外部存储器和输出特征缓存区；

3.根据权利要求1所述的一种基于FPGA的神经网络加速器实现方法，其特征在于，所述神经网络计算模块包括卷积模块、池化模块和全连接模块；

4.根据权利要求3所述的一种基于FPGA的神经网络加速器实现方法，其特征在于，包括将批量标准化层和所述卷积模块进行融合，将批归一化层置于所述卷积模块之后、激活函数之前，来加快训练收敛，并应用所述激活函数对标准化后的输出进行非线性映射，引入非线性关系，使得网络更能捕捉复杂的模式和特征。

5.根据权利要求4所述的一种基于FPGA的神经网络加速器实现方法，其特征在于，还包括在所述卷积模块中将卷积计算转换为所述矩阵乘法计算时，对激活值和所述权重参数进行稀疏化约束。

6.根据权利要求4所述的一种基于FPGA的神经网络加速器实现方法，其特征在

7.根据权利要求6所述的一种基于FPGA的神经网络加速器实现方法，其特征在于，还包括在所述卷积模块中，使用short input_buffer、short weight_buffer和int output_buffer作为临时变量；在所述池化模块中，使用short input_val和int output_val作为临时变量。

8.根据权利要求7所述的一种基于FPGA的神经网络加速器实现方法，其特征在于，还包括在所述卷积操作和所述池化操作中采用乒乓缓冲操作，以提高计算的并行性。

9.根据权利要求1所述的一种基于FPGA的神经网络加速器实现方法，其特征在于，所述数据控制模块有多个AXI Master接口和一个AXI Lite Slave接口，通过所述AXI LiteSlave接口进行对控制、数据和状态寄存器的读写，通过多个所述AXI Master接口同时执行对所述输入特征图的并行读取和对输出特征图的写回操作，通过一个特定的所述AXIMaster接口专门负责每层所述权重参数的读取。

10.根据权利要求8所述的一种基于FPGA的神经网络加速器实现方法，其特征在于，所述数据控制模块还包括数据分发单元和数据收集单元；

...

【技术特征摘要】

1.一种基于fpga的神经网络加速器实现方法，其特征在于，包括数据存储模块、卷积神经网络计算模块和数据控制模块；

2.根据权利要求1所述的一种基于fpga的神经网络加速器实现方法，其特征在于，所述数据存储模块包括fpga片缓存单元、外部存储器和输出特征缓存区；

3.根据权利要求1所述的一种基于fpga的神经网络加速器实现方法，其特征在于，所述神经网络计算模块包括卷积模块、池化模块和全连接模块；

4.根据权利要求3所述的一种基于fpga的神经网络加速器实现方法，其特征在于，包括将批量标准化层和所述卷积模块进行融合，将批归一化层置于所述卷积模块之后、激活函数之前，来加快训练收敛，并应用所述激活函数对标准化后的输出进行非线性映射，引入非线性关系，使得网络更能捕捉复杂的模式和特征。

5.根据权利要求4所述的一种基于fpga的神经网络加速器实现方法，其特征在于，还包括在所述卷积模块中将卷积计算转换为所述矩阵乘法计算时，对激活值和所述权重参数进行稀疏化约束。

6.根据权利要求4所述的一种基于fpga的神经网络加速器实现方法，其特征在于，所述池化模块使用四个嵌套循环，遍历所述卷积输出特征图的高度、宽度以及所述池化窗口的...

【专利技术属性】
技术研发人员：朱栋，姚翌，
申请(专利权)人：常州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人