一种流水式卷积计算架构设计方法及残差网络加速系统技术方案

技术编号：28625312 阅读：14 留言：0更新日期：2021-05-28 16:21

本发明专利技术提供一种流水式卷积计算架构设计方法及残差网络加速系统，该方法将该硬件加速架构分为片上缓冲区、卷积处理阵列和逐点加法模块；设置该硬件加速架构的主路由三块串行排列的卷积处理阵列组成，在它们之间插入两块流水线缓冲区，用于实现主路的三层卷积的层间流水；设置第四卷积处理阵列用于并行处理残差积木块分支的内核大小为1×1的卷积层，通过配置第四卷积处理阵列中的寄存器，改变其工作模式，使其可用于计算残差网络头部卷积层或全连接层，当残差积木块的分支无卷积时，跳过第四卷积处理阵列不执行卷积；设置逐点加法模块将残差积木块主路的输出特征与分支快捷连接的输出特征执行对应输出特征像素逐元素相加。

全部详细技术资料下载

【技术实现步骤摘要】
一种流水式卷积计算架构设计方法及残差网络加速系统
本专利技术涉及计算机视觉场景处理方法领域，更具体地，涉及一种流水式卷积计算架构设计方法及残差网络加速系统。
技术介绍
卷积神经网络(CNN)在各种计算机视觉场景中使用广泛，并表现出了优越的性能。但是由于复杂密集的计算需求以及庞大的存储需求，使得在功耗敏感和实时性要求较高的的移动设备、嵌入式平台上部署和加速卷积神经网络成为一项挑战。在卷积神经网络中，卷积层的计算时间占据网络总计算时间的90％以上，因此，卷积层运算的加速是卷积神经网络加速最重要的组成部分。卷积神经网络的加速器的设计应充分利用卷积神经网络中层与层之间、层内各个卷积核的并行度，同时针对网络模型的特征定制卷积运算模块。现场可编程逻辑门阵列(FPGA)是专用集成电路中的一种半定制电路，是可编程的逻辑器件，随着半导体技术的不断升级和发展，现在主流的FPGA包含了丰富的逻辑计算，存储和布线资源，同时具有低功耗优势，使得研究人员有足够的设计空间来定制专用的卷积神经网络加速硬件结构，以充分利用卷积神经网络计算的并行特性来加速运算过程。残差网络是近年来在计算机视觉领域备受关注的卷积神经网络模型，与传统卷积神经网络的逐层简单堆叠不同的是，残差网络采用了分支快捷连接构建了残差积木模块，有效解决了随着网络层数的加深，训练和测试精度退化问题，使得网络能够更容易的通过堆叠层数来提升性能。但是目前在FPGA上部署残差网络的相关研究数量较少。因为残差网络的层数较深，各层的尺寸有所不同，而且每两个或三个相邻的层之间...

【技术保护点】
1.一种流水式卷积计算架构的设计方法，其特征在于，包括以下步骤：/nS1：将该硬件加速架构分为片上缓冲区、卷积处理阵列和逐点加法模块；/nS2：设置该硬件加速架构的主路由三块串行排列的卷积处理阵列组成，在它们之间插入两块流水线缓冲区，用于实现主路的三层卷积的层间流水，所述流水线缓冲区设置在片上缓冲区内；/nS3：设置第四卷积处理阵列用于并行处理残差积木块分支的内核大小为1×1的卷积层，通过配置第四卷积处理阵列中的寄存器，改变其工作模式，使其可用于计算残差网络头部卷积层或全连接层，当残差积木块的分支无卷积时，跳过第四卷积处理阵列不执行卷积；/nS4：设置逐点加法模块将残差积木块主路的输出特征与分支快捷连接的输出特征执行对应输出特征像素逐元素相加。/n

【技术特征摘要】
1.一种流水式卷积计算架构的设计方法，其特征在于，包括以下步骤：
S1：将该硬件加速架构分为片上缓冲区、卷积处理阵列和逐点加法模块；
S2：设置该硬件加速架构的主路由三块串行排列的卷积处理阵列组成，在它们之间插入两块流水线缓冲区，用于实现主路的三层卷积的层间流水，所述流水线缓冲区设置在片上缓冲区内；
S3：设置第四卷积处理阵列用于并行处理残差积木块分支的内核大小为1×1的卷积层，通过配置第四卷积处理阵列中的寄存器，改变其工作模式，使其可用于计算残差网络头部卷积层或全连接层，当残差积木块的分支无卷积时，跳过第四卷积处理阵列不执行卷积；
S4：设置逐点加法模块将残差积木块主路的输出特征与分支快捷连接的输出特征执行对应输出特征像素逐元素相加。

2.根据权利要求1所述的流水式卷积计算架构的设计方法，其特征在于，所述缓冲区包括输入缓冲区、流水线缓冲区、输出缓冲区和权重缓冲区；其中，输入缓冲区用于缓存从片外存储器中读取的特征数据切片，并为残差积木块主路的第一卷积处理阵列和第四卷积处理阵列所共享以提供特征输入；在用于计算残差积木模块主路卷积的第一卷积处理阵列和第二卷积处理阵列的输出端应用流水线缓冲区。

3.根据权利要求2所述的流水式卷积计算架构的设计方法，其特征在于，流水线缓冲区,用于缓存第一卷积处理阵列的输出特征，即缓存第二卷积处理阵列的输入特征。

4.根据权利要求3所述的流水式卷积计算架构的设计方法，其特征在于，在残差积木块主路的第三卷积处理阵列的输出端设置第一输出缓冲区，在分支快捷连接处的第四卷积处理阵列的输出端设置第二输出缓冲区，用于存储卷积输出特征结果，根据后续的运算过程不同，输出缓冲区中的数据可能会被送到逐点加法模块、池化运算单元或通过直接存储器访问模块写回外部存储器。

5.根据权利要求4所述的流水式卷积计算架构的设计方法，其特征在于，权重缓冲区用于缓存各层卷积对应的权重数据切片，由于使用了流水线技术处理主路的三层卷积，为了使得下一级流水更快开始启动同时最小化流水线缓冲区的大小，卷积计算的循环顺序设计为先将某一输出特征对应的所有输出通道计算完毕，再更换输出特征，按照这一顺序将所有输出特征计算完毕，避免了缓冲区的输入特征切片的重复加载，但是造成了权重缓冲区的重复加载用以更换权重切片，为此设计每个卷积处...

【专利技术属性】
技术研发人员：黄以华，黄俊源，陈志炜，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人