【技术实现步骤摘要】
一种可配置的通用卷积神经网络加速器
[0001]本专利技术属于神经网络
,具体涉及一种可配置的通用卷积神经网络加速器。
技术介绍
[0002]卷积神经网络以其强大的表征能力,在目标识别、自动驾驶及人工智能等领域得到了广泛的应用,成为了深度学习领域重要的算法之一。随着算法地不断演进,卷积神经网络的网络结构变得越来越深,给部署卷积神经网络的设备带来极大挑战。卷积神经网络中的卷积运算占据了整个网络90%以上的运算量,卷积神经网络加速器的关键组件是处理卷积运算的功能单元。现有的卷积神经网络加速器结构较为单一,其针对特定深度神经网络结构能够取得较好的吞吐量和能效比,但面对复杂的应用场景,不同大小的规格的识别特征谱图,无法更好的提供优质的加速效果。
技术实现思路
[0003]本专利技术的目的就在于为了解决上述问题而提供一种结构简单,设计合理的可配置的通用卷积神经网络加速器。
[0004]本专利技术通过以下技术方案来实现上述目的:
[0005]一种可配置的通用卷积神经网络加速器,包括输入配置模块、权重配置模块、PE计算模块与输出配置模块;
[0006]所述输入配置模块,其被配置为接收特征图数据并存储,接收权重数据并将其输出至权重配置模块;
[0007]所述权重配置模块,其被配置为接收并处理权重数据,将权重数据基于不同卷积核的尺寸大小分为若干组,输出至PE计算模块;
[0008]所述PE计算模块,其被配置为包括多个PE单元,基于若干组权重数据,将多个PE单元组成的若干个P ...
【技术保护点】
【技术特征摘要】
1.一种可配置的通用卷积神经网络加速器,其特征在于,包括输入配置模块、权重配置模块、PE计算模块与输出配置模块;所述输入配置模块,其被配置为接收特征图数据并存储,接收权重数据并将其输出至权重配置模块;所述权重配置模块,其被配置为接收并处理权重数据,将权重数据基于不同卷积核的尺寸大小分为若干组,输出至PE计算模块;所述PE计算模块,其被配置为包括多个PE单元,基于若干组权重数据,将多个PE单元组成的若干个PE阵列,单个PE阵列中的PE单元接收输入配置模块中输出的相应特征图数据以及权重配置模块中输出的相应权重数据,基于接收的两组数据进行卷积计算;所述输出配置模块,其被配置为接收PE计算模块输出的特征图数据,存储并输出至外部操作机或输入配置模块内。2.根据权利要求1所述的一种可配置的通用卷积神经网络加速器,其特征在于:所述输入配置模块包括AXI4总线接口,该通用卷积神经网络加速器通过AXI4总线接口连接外部设备。3.根据权利要求2所述的一种可配置的通用卷积神经网络加速器,其特征在于:在所述输入配置模块中,其接收到的特征图的数据大小为n
a
*n
a
*n
c
,所述n
c
大于等于1,所述输入配置模块中设置有特征图分级存储单元,该特征图分级存储单元包括主图单元与若干组分图单元,所述主图单元与若干组分图单元设置于同一缓存区内,其中,所述主图单元内存储输入配置模块从外部设备中接收的特征图信息,所述分图单元内存储输出配置模块输出至输入配置模块内的特征图信息。4.根据权利要求3所述的一种可配置的通用卷积神经网络加速器,其特征在于:在所述权重配置模块中,所述卷积核的尺寸大小为f
b
*f
b
*n
c
,所述f
b
小于n
a
,所述权重配置模块基于卷积核的尺寸大小,将其权重信息分为f
b
*n
c
个f
b
*1或f
b
*n
c
个1*f
b
,f
b
*1为横条状排列数据,1*f
b
为竖条状排列数据。5.根据权利要求4所述的一种可配置的通用卷积神经网络加速器,其特征在于:所述输入配置模块包括前处理单元,所述前处理单元基于权重配置模块中分离处理得到的卷积核权重数据分离待卷积的特征图数据,卷积核的权重数据为f
b
*n
c
个f
b
*1时对应的特征图数据分离为n
a
*n
c
个n
a
*1,卷积核的权重数据为f
b
*n
c
个1*f
b
时对应的特征图数据分离为n
a
*n
c
个1*n
a
。6.根据权利要求5所述的一种可配置的通用卷积神经网络加速器,其特征在于:在所述PE计算模块中,一个所述PE阵列对应一个卷积核的权重数据,在一个所述PE阵列中,单个的PE单元被配置为将n
a
*1或1*n
a
个特征图数据按卷积顺序与f
b
*1或1*f
b
中的权重数据逐步计算。7.根据权利要求6所述的一种可配置的通用卷积神经网络加速...
【专利技术属性】
技术研发人员:罗斌,
申请(专利权)人:南京广捷智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。