一种可配置的通用卷积神经网络加速器制造技术

技术编号:30644012 阅读:14 留言:0更新日期:2021-11-04 00:46
本发明专利技术涉及一种可配置的通用卷积神经网络加速器。该可配置的通用卷积神经网络加速器,包括输入配置模块、权重配置模块、PE计算模块与输出配置模块;所述输入配置模块,其被配置为接收特征图数据并存储,接收权重数据并将其输出至权重配置模块;所述权重配置模块,其被配置为接收并处理权重数据,将权重数据基于不同卷积核的尺寸大小分为若干组,输出至PE计算模块;所述PE计算模块,其被配置为包括多个PE单元,基于若干组权重数据,将多个PE单元组成的若干个PE阵列,单个PE阵列中的PE单元接收输入配置模块中输出的相应特征图数据以及权重配置模块中输出的相应权重数据;该可配置的通用卷积神经网络加速器,提高整个神经网络的识别、训练的速度。识别、训练的速度。识别、训练的速度。

【技术实现步骤摘要】
一种可配置的通用卷积神经网络加速器


[0001]本专利技术属于神经网络
,具体涉及一种可配置的通用卷积神经网络加速器。

技术介绍

[0002]卷积神经网络以其强大的表征能力,在目标识别、自动驾驶及人工智能等领域得到了广泛的应用,成为了深度学习领域重要的算法之一。随着算法地不断演进,卷积神经网络的网络结构变得越来越深,给部署卷积神经网络的设备带来极大挑战。卷积神经网络中的卷积运算占据了整个网络90%以上的运算量,卷积神经网络加速器的关键组件是处理卷积运算的功能单元。现有的卷积神经网络加速器结构较为单一,其针对特定深度神经网络结构能够取得较好的吞吐量和能效比,但面对复杂的应用场景,不同大小的规格的识别特征谱图,无法更好的提供优质的加速效果。

技术实现思路

[0003]本专利技术的目的就在于为了解决上述问题而提供一种结构简单,设计合理的可配置的通用卷积神经网络加速器。
[0004]本专利技术通过以下技术方案来实现上述目的:
[0005]一种可配置的通用卷积神经网络加速器,包括输入配置模块、权重配置模块、PE计算模块与输出配置模块;
[0006]所述输入配置模块,其被配置为接收特征图数据并存储,接收权重数据并将其输出至权重配置模块;
[0007]所述权重配置模块,其被配置为接收并处理权重数据,将权重数据基于不同卷积核的尺寸大小分为若干组,输出至PE计算模块;
[0008]所述PE计算模块,其被配置为包括多个PE单元,基于若干组权重数据,将多个PE单元组成的若干个PE阵列,单个PE阵列中的PE单元接收输入配置模块中输出的相应特征图数据以及权重配置模块中输出的相应权重数据,基于接收的两组数据进行卷积计算;
[0009]输出配置模块,其被配置为接收PE计算模块输出的特征图数据,存储并输出至外部操作机或输入配置模块内。
[0010]作为本专利技术的进一步优化方案,所述输入配置模块包括AXI4总线接口,该通用卷积神经网络加速器通过AXI4总线接口连接外部设备。
[0011]作为本专利技术的进一步优化方案,在所述输入配置模块中,其接收到的特征图的数据大小为n
a
*n
a
*n
c
,所述n
c
大于等于1,所述输入配置模块中设置有特征图分级存储单元,该特征图分级存储单元包括主图单元与若干组分图单元,所述主图单元与若干组分图单元设置于同一缓存区内,其中,所述主图单元内存储输入配置模块从外部设备中接收的特征图信息,所述分图单元内存储输出配置模块输出至输入配置模块内的特征图信息。
[0012]作为本专利技术的进一步优化方案,在所述权重配置模块中,所述卷积核的尺寸大小
为f
b
*f
b
*n
c
,所述f
b
小于n
a
,所述权重配置模块基于卷积核的尺寸大小,将其权重信息分为f
b
*n
c
个f
b
*1或f
b
*n
c
个1*f
b
,f
b
*1为横条状排列数据,1*f
b
为竖条状排列数据。
[0013]作为本专利技术的进一步优化方案,所述输入配置模块包括前处理单元,所述前处理单元基于权重配置模块中分离处理得到的卷积核权重数据分离待卷积的特征图数据,卷积核的权重数据为f
b
*n
c
个f
b
*1时对应的特征图数据分离为n
a
*n
c
个n
a
*1,卷积核的权重数据为f
b
*n
c
个1*f
b
时对应的特征图数据分离为n
a
*n
c
个1*n
a

[0014]作为本专利技术的进一步优化方案,在所述PE计算模块中,一个所述PE阵列对应一个卷积核的权重数据,在一个所述PE阵列中,单个的PE单元被配置为将n
a
*1或1*n
a
个特征图数据按卷积顺序与f
b
*1或1*f
b
中的权重数据逐步计算。
[0015]作为本专利技术的进一步优化方案,n
a
*n
a
个特征图数据仅与相应的PE单元进行计算,且一个PE阵列中的一个PE单元仅与特征图数据中的数据产生一次运算,且该次运算后,单个PE单元自行累加并输出结果。
[0016]作为本专利技术的进一步优化方案,在一个PE阵列中,f
b
个分离后的条状特征图数据与f
b
个权重数据一个时间周期相乘后,相互进行累加运算,并输出至输出配置模块,所述输出配置模块设置有输出图像特征缓冲区,所述输出图像特征缓冲区存储所述PE阵列在单个时间周期内输出的特征图数据,当n
a2
个时间周期后,该输出图像特征缓冲区获得该次卷积计算得到的完整特征图数据,所述输出配置模块可将该特征图数据存储并输出至外部操作机或输入配置模块的分图单元内。
[0017]作为本专利技术的进一步优化方案,所述输入配置模块内还设置有输入图像特征缓冲区,所述输入图像特征缓冲区内存储单个PE阵列计算所需的特征图数据,该存储的特征图数据为n
a
*1或1*n
a
个横条形或竖条形的图像特征数据,当单个横条形或竖条形的特征图数据完成全部的卷积计算后,该横条形或竖条形的特征图数据被新的待卷积的横条形或竖条形的图像特征数据覆盖。
[0018]一种可配置的通用卷积网络加速方法,其包括可配置的通用卷积网络加速器,该通用卷积网络加速器包括输入配置模块、权重配置模块、PE计算模块与输出配置模块;所述输入配置模块,其被配置为接收特征图数据并存储,接收权重数据并将其输出至权重配置模块;所述权重配置模块,其被配置为接收并处理权重数据,将权重数据基于不同卷积核的尺寸大小分为若干组,输出至PE计算模块;所述PE计算模块,其被配置为包括多个PE单元,基于若干组权重数据,将多个PE单元组成的若干个PE阵列,单个PE阵列中的PE单元接收输入配置模块中输出的相应特征图数据以及权重配置模块中输出的相应权重数据,基于接收的两组数据进行卷积计算;输出配置模块,其被配置为接收PE计算模块输出的特征图数据,存储并输出至外部操作机或输入配置模块内;该输入配置模块将待卷积的特征图数据分离为n
a
*n
c
个n
a
*1或n
a
*n
c
个1*n
a
,该权重配置模块将一个卷积核的权重数据分为f
b
*n
c
个f
b
*1或f
b
*n
c
个1*f
b
,卷积核的权重数据为f<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可配置的通用卷积神经网络加速器,其特征在于,包括输入配置模块、权重配置模块、PE计算模块与输出配置模块;所述输入配置模块,其被配置为接收特征图数据并存储,接收权重数据并将其输出至权重配置模块;所述权重配置模块,其被配置为接收并处理权重数据,将权重数据基于不同卷积核的尺寸大小分为若干组,输出至PE计算模块;所述PE计算模块,其被配置为包括多个PE单元,基于若干组权重数据,将多个PE单元组成的若干个PE阵列,单个PE阵列中的PE单元接收输入配置模块中输出的相应特征图数据以及权重配置模块中输出的相应权重数据,基于接收的两组数据进行卷积计算;所述输出配置模块,其被配置为接收PE计算模块输出的特征图数据,存储并输出至外部操作机或输入配置模块内。2.根据权利要求1所述的一种可配置的通用卷积神经网络加速器,其特征在于:所述输入配置模块包括AXI4总线接口,该通用卷积神经网络加速器通过AXI4总线接口连接外部设备。3.根据权利要求2所述的一种可配置的通用卷积神经网络加速器,其特征在于:在所述输入配置模块中,其接收到的特征图的数据大小为n
a
*n
a
*n
c
,所述n
c
大于等于1,所述输入配置模块中设置有特征图分级存储单元,该特征图分级存储单元包括主图单元与若干组分图单元,所述主图单元与若干组分图单元设置于同一缓存区内,其中,所述主图单元内存储输入配置模块从外部设备中接收的特征图信息,所述分图单元内存储输出配置模块输出至输入配置模块内的特征图信息。4.根据权利要求3所述的一种可配置的通用卷积神经网络加速器,其特征在于:在所述权重配置模块中,所述卷积核的尺寸大小为f
b
*f
b
*n
c
,所述f
b
小于n
a
,所述权重配置模块基于卷积核的尺寸大小,将其权重信息分为f
b
*n
c
个f
b
*1或f
b
*n
c
个1*f
b
,f
b
*1为横条状排列数据,1*f
b
为竖条状排列数据。5.根据权利要求4所述的一种可配置的通用卷积神经网络加速器,其特征在于:所述输入配置模块包括前处理单元,所述前处理单元基于权重配置模块中分离处理得到的卷积核权重数据分离待卷积的特征图数据,卷积核的权重数据为f
b
*n
c
个f
b
*1时对应的特征图数据分离为n
a
*n
c
个n
a
*1,卷积核的权重数据为f
b
*n
c
个1*f
b
时对应的特征图数据分离为n
a
*n
c
个1*n
a
。6.根据权利要求5所述的一种可配置的通用卷积神经网络加速器,其特征在于:在所述PE计算模块中,一个所述PE阵列对应一个卷积核的权重数据,在一个所述PE阵列中,单个的PE单元被配置为将n
a
*1或1*n
a
个特征图数据按卷积顺序与f
b
*1或1*f
b
中的权重数据逐步计算。7.根据权利要求6所述的一种可配置的通用卷积神经网络加速...

【专利技术属性】
技术研发人员:罗斌
申请(专利权)人:南京广捷智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1