一种基于并行快速FIR滤波器算法的卷积神经网络硬件加速器制造技术

技术编号：17139244 阅读：92 留言：0更新日期：2018-01-27 14:59

本发明专利技术公开了一种基于并行快速FIR滤波器算法的卷积神经网络硬件加速器。本加速器主要由计算逻辑和存储单元两大部分构成，计算逻辑主要包含多用处理器，快速卷积单元以及由快速卷积单元构成的卷积计算阵列；存储单元包括像素存储器，权值缓存，附加存储器和片外动态存储器。本加速器可以在三个层面并行处理卷积神经网络的计算，分别是行(列)并行，层内并行和层间并行。由于本加速器可以适用在多种并行度的场合，所以可以非常高效地处理卷积神经网络的计算，并且能够达到可观的数据吞吐率。

A convolution neural network hardware accelerator based on parallel fast FIR filter algorithm

The invention discloses a convolution neural network hardware accelerator based on parallel fast FIR filter algorithm. The accelerator is mainly composed of computing logic and memory unit of two parts, mainly includes the multi processor logic calculation, fast convolution and convolution unit composed of fast convolution computation element array; the storage unit includes a pixel memory, cache memory and additional weights, a dynamic memory. This accelerator can handle convolution neural networks simultaneously at three levels, which are row (column) parallel, layer parallel and interlayer parallel. Because the accelerator can be applied to many parallel degree occasions, it can handle the computation of convolution neural network very efficiently, and achieve considerable data throughput.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于并行快速FIR滤波器算法的卷积神经网络硬件加速器
本专利技术设计计算机及电子信息
，特别涉及一种基于并行快速FIR滤波器算法的卷积神经网络硬件加速器。
技术介绍
卷积神经网络(CNN)是当今最流行的深度学习算法之一。由于它在图像和声音识别等方面卓越的表现，现已在学术和工业界被广泛地应用。将基于卷积神经网络算法的识别系统应用在本地处理器上有着巨大的前景，也是未来发展的方向。然而由于深度卷积神经网络有着很高的计算复杂度，一般专用的图形处理器才能做快速的训练和识别，但是并不能减少计算复杂度。卷积神经网络主要由卷积层、池化层和全连接层构成一个前馈架构，每一层接受上一层的输出当作其输入，并且提供自己的输出结果给下一层。卷积层中的卷积操作承担了卷积神经网络的大部分计算并且在实际应用中占据着主要的功耗。池化层分为最大池化和平均池化两种，一般现在使用的都是最大池化。并行快速有限冲击响应(FIR)算法(简称并行FFA)是算法强度缩减在并行FIR滤波器中的应用。强度缩减利用共享子结构达到了缩减硬件复杂度的效果。在一个VLSI实现或者一个可编程DSP实现的迭代周期中，用这种变换可以降低硅面积和功耗。基于并行快速有限脉冲响应(FIR)算法，本文设计了针对深度卷积神经网络的硬件加速器架构。基于并行快速FIR算法的快速卷积单元能够在根本上减小卷积的计算复杂度并且同时输出多个神经元。
技术实现思路
本专利技术旨在解决深度卷积神经网络计算复杂度高，并行度低等技术问题，或至少提出一种有用的商业选择。为此本专利技术的目的在于提出一种基于并行快速FIR滤波器算法的卷积神经网络硬件加速...
一种基于并行快速FIR滤波器算法的卷积神经网络硬件加速器

【技术保护点】
一种基于并行快速FIR滤波器算法的卷积神经网络硬件加速器，包括：多用处理器，用于接收输入像素神经元，完成位宽转换、卷积、加法树、线性修正、最大池化等操作，并把结果存入相应的存储单元。像素存储器，用于存储部分输入图片及特征图片。权值缓存，用于缓存部分卷积核的权值。附加存储器，用于存储输入图片和特征图片卷积计算的中间结果。片外动态存储器，用于存储全部的卷积核权值和要处理的整幅输入图片。

【技术特征摘要】
1.一种基于并行快速FIR滤波器算法的卷积神经网络硬件加速器，包括：多用处理器，用于接收输入像素神经元，完成位宽转换、卷积、加法树、线性修正、最大池化等操作，并把结果存入相应的存储单元。像素存储器，用于存储部分输入图片及特征图片。权值缓存，用于缓存部分卷积核的权值。附加存储器，用于存储输入图片和特征图片卷积计算的中间结果。片外动态存储器，用于存储全部的卷积核权值和要处理的整幅输入图片。2.如权利要求1所述的多用处理器，包括：位宽转换器，用于将存储数据的位宽和计算...

【专利技术属性】
技术研发人员：王中风，王稷琛，林军，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人