一种基于ZYNQ的通用卷积神经网络加速结构及设计方法技术

技术编号：22330852 阅读：40 留言：0更新日期：2019-10-19 12:24

本发明专利技术提供了一种可以用来加速卷积神经网络中多通道卷积运算的方法，其特点是该加速器可以加速任何结构的神经网络，可编程、可在线配置，支持的特征图大小、特征图通道数、卷积核大小、卷积核通道数、卷积步幅灵活可变，控制逻辑简单，卷积运算并行度高，该加速器可以应用到任何ZYNQ架构的平台上，用户可以根据自己芯片中dsp的资源对加速电路裁剪；最小可以支持128个dsp(Digital Signal Processing)资源。本发明专利技术所述一种基于ZYNQ的通用卷积神经网络加速结构，包括：ARM处理器、总线互联、DDR4控制器、内存条、寄存器、卷积运算通路、辅助运算通路、池化运算通路、访存模块。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于ZYNQ的通用卷积神经网络加速结构及设计方法
本专利技术涉及卷积神经网络硬件加速
，特别涉及一种基于ZYNQ的通用卷积神经网络加速结构及设计方法。
技术介绍
卷积神经网络(ConvolutionNeuralNetwork,CNN)在计算机视觉领域应用广泛，尤其是在目标检测和图像识别等方面体现出了良好的应用前景。边缘计算是一种全新的计算模式，其概念是在靠近数据中心的边缘地带直接对数据进行处理，而不用传回服务器处理。在目标检测中使用边缘计算能够带来一系列好处：直接在采集端的硬件设备上处理图像，不需要传回上位机，节省数据传输的时间、减少数据传输的开销。通过优化加速卷积神经网络，实现在硬件设备上的高效处理具有重要的实际意义。目前，GPU是加速模型训练或应用的主流选择，而GPU由于其很大的功耗，而这对于像无人机，嵌入式设备这些对功耗效率实时性要求高的终端应用场景来说不适合移动应用。相比之下，FPGA效率高、适应性强，更适合于移动加速。目前提出的FPGA设计方法主要集中在特定的神经网络加速方法上，仅对特定的算法实现了电路结构的加速，通用性差，无法实现其他算法的复用。随着深度卷积神经网络层数的增加，参数量的爆炸性增长，其计算复杂度和计算力需求也水涨船高。人工智能芯片主要用于训练和推理两个环节，其中在线推理环节是指利用训练出来的模型在线响应用户需求，如无人驾驶，智能家居等领域，基于实时性和隐私安全的考虑，需要在嵌入式智能终端部署计算平台，并且要尽可能地减少时延，这就对计算速度提出了要求。另外，对于可穿戴设备等嵌入式设备对功耗和效率的要求也非常高。
技术实现思路
...

【技术保护点】
1.一种基于ZYNQ的通用卷积神经网络加速结构及设计方法，包括：ZYNQ芯片、内存条；所述内存条，用于存储卷积网络计算的中间特征数据、每层网络的权重数据、偏置数据，以完成整个网络的运算；所述ZYNQ芯片，用于完成整个加速器电路的部署及实现。

【技术特征摘要】
1.一种基于ZYNQ的通用卷积神经网络加速结构及设计方法，包括：ZYNQ芯片、内存条；所述内存条，用于存储卷积网络计算的中间特征数据、每层网络的权重数据、偏置数据，以完成整个网络的运算；所述ZYNQ芯片，用于完成整个加速器电路的部署及实现。2.根据权利要求1所述一种基于ZYNQ的通用卷积神经网络加速结构及设计方法，其特征在于，所述ZYNQ芯片包括：ARM处理器、总线互联、DDR4控制器、FPGA；所述ARM处理器，用于配置和调度所述FPGA中设计的硬件电路；所述总线互联模块，用于将所述FPGA与所述DDR4控制器中的数据接口转换成统一的接口以供所述ARM处理器访问；所述DDR4控制器，用于访问所述内存条中的数据以及控制从所述总线互联写入数据到所述内存条；所述FPGA，用于卷积加速电路和池化加速电路的部署。3.根据权利要求2所述一种基于ZYNQ的通用卷积神经网络加速结构及设计方法，其特征在于，所述FPGA包括：寄存器、卷积运算通路、辅助运算通路、池化运算通路、访存模块；所述寄存器，用于存储电路的配置信息，以完成不同规模的卷积网络计算，同时，可以通过每次配置不同的数据，以完成不同结构的卷积网络的计算；所述卷积运算通路，用于...

【专利技术属性】
技术研发人员：刘杰，马力强，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人