一种基于PE架构通道的卷积神经网络加速器制造技术

技术编号:33922585 阅读:17 留言:0更新日期:2022-06-25 21:15
本发明专利技术公开了一种基于PE架构通道的卷积神经网络加速器,包括运动检测模块,其用于检测与视频图像中的运动对象相对应的候选图像区域;第一CNN模块,其使用具有第一图像尺寸的滑动窗口处理运动检测模块检测到的候选图像区域,并在候选图像区域内生成第一人脸窗口;第一图像尺寸在第一CNN模块的最大输入图像尺寸与最小输入尺寸之间;第一CNN模块、第二CNN模块、第三CNN模块均采用硬件CNN模块,并且第一CNN模块、第二CNN模块与第三CNN模块耦合;本发明专利技术能够基于输入图像尺寸小的小型的输入硬件CNN模块处理高像素的图像,并且对于硬件CNN模块的架构进行优化,使其能够并行加速卷积,能够同时保证图像处理的速率。能够同时保证图像处理的速率。能够同时保证图像处理的速率。

【技术实现步骤摘要】
一种基于PE架构通道的卷积神经网络加速器


[0001]本专利技术涉及卷积神经网络
,更具体地说,它涉及一种基于PE架构通道的卷积神经网络加速器。

技术介绍

[0002]卷积神经网络以其强大的表征能力,在目标识别、自动驾驶及人工智能等领域得到了广泛的应用,成为了深度学习领域重要的算法之一。随着算法地不断演进,卷积神经网络的网络结构变得越来越深,给部署卷积神经网络的设备带来极大挑战。卷积神经网络中的卷积运算占据了整个网络90%以上的运算量,卷积神经网络加速器的关键组件是处理卷积运算的功能单元。
[0003]目前,卷积神经网络加速器通常采用脉动阵列结构,如图1所示。该结构由功能相同的运算单元(PE)组成矩阵形式,每个运算单元的功能为进行乘加运算,并设计相应的缓存和控制逻辑。该架构运算过程如下:1) 权值广播:将阵列中的每一行PE分成一组,权值参数按行广播到各组中,各组中的PE共用同一个权值参数;2)输入特征:将阵列中对角线上PE划分成一组,输入特征按行输入到各组中,各组内的PE共用同一个输入特征值;3)输出结果:将整列中的每一列PE划分成一组,将各组内每个PE的计算结果相加,即可得到卷积计算的中间结果。该方案主要侧重点在于能效,主要体现在数据复用方面,首先权值参数广播到网络中,存储到每个PE的缓存中,直到对应该权值参数的所有输入特征数据都输入完之后才更换,体现了权值参数的复用;其次,输入特征按行输入后,每个卷积的输入特征有重叠,体现了输入特征的复用;脉动阵列结构具有设计简单而规则、容易实现高并行性,且运算单元间通信比较简单的优势,但这种结构也存在明显的缺点,主要包括:1)采用脉动阵列结构时,运算单元(PE)易出现闲置率较高的情况,进而导致降低加速器的效率;2)采用脉动阵列结构时,由于需要带宽的成比例增加来维持所需要的加速倍数,因而脉动阵列的可扩展性差;卷积神经网络不仅局限于网络架构,由于其基于硬件进行实现,并非所有硬件都具有类似Nvidia图像处理器或大型专用处理器的算力,其所能够输入的图像大小受限。

技术实现思路

[0004]本专利技术提供一种基于PE架构通道的卷积神经网络加速器,解决相关技术中的技术问题。
[0005]根据本专利技术的一个方面,提供了一种基于PE架构通道的卷积神经网络加速器,包括:运动检测模块,其用于检测与视频图像中的运动对象相对应的候选图像区域;第一CNN模块,其使用具有第一图像尺寸的滑动窗口处理运动检测模块检测到的候选图像区域,并在候选图像区域内生成第一人脸窗口;第一图像尺寸在第一CNN模块的最大输入图像尺寸与最小输入尺寸之间;
第二CNN模块,其使用具有第二图像尺寸的滑动窗口处理运动检测模块检测到的候选图像区域,并在候选图像区域内由第一人脸窗口划分的第一子区域内生成第二人脸窗口;第三CNN模块,其使用具有第三图像尺寸的滑动窗口处理运动检测模块检测到的候选图像区域,并在候选图像区域内由第二人脸窗口划分的第二子区域内生成第三人脸窗口;第一CNN模块、第二CNN模块、第三CNN模块均采用硬件CNN模块,并且第一CNN模块、第二CNN模块与第三CNN模块耦合;第三图像尺寸大于硬件CNN模块的最大输入尺寸;图像分割模块,其连接运动检测模块以及第一CNN模块,用于处理运动检测模块输出的候选图像区域获得图像金字塔,图像金字塔包含不同分辨率的图像集,图像分割模块还用于将图像金字塔的图像集中的图像分割为输入第一CNN模块的图像块,图像块的大小小于硬件CNN模块的最大输入尺寸;所述硬件CNN模块包括一个以上的CNN子模块,CNN子模块包括至少一个以上的n个PE运算单元,n个PE运算单元并行运算;一个PE运算单元输出一个输出特征图,n个PE运算单元同时输出n个输出特征图。
[0006]进一步地,所述第一图像尺寸是基于所述硬件CNN模块的最小输入尺寸成正比。
[0007]进一步地,所述第一图像尺寸与所述硬件CNN模块的最小输入尺寸相同。
[0008]进一步地,所述PE运算单元包括一个以上的n个乘法器以及一组加法树,其中n个乘法器分别接收n个输入通道的输入特征数据以及所述输入特征数据对应的权值参数,并进行卷积运算,加法树用于对所述PE运算单元的一个以上的n个乘法器的卷积运算的结果进行累加运算获得输出特征图。
[0009]进一步地,所述输入特征数据、权值参数、输出特征谱存储于缓存中,其中输入特征数据对应于输入特征谱缓存,输入特征谱缓存包含至少一个以上的a个地址空间,其中一个地址空间对应的存储输入特征谱的一个位置的输入特征数据,并且每个地址空间对应的输入特征谱的一个位置的输入特征数据对应于n个输入通道进行划分;其中权值参数对应于权值参数缓存,权值参数缓存包含至少一个以上的b个地址空间,其中一个地址空间对应的存储权值参数中一个卷积核的数据,并且每个地址空间对应的存储权值参数中一个卷积核的数据对应于n个输入通道进行划分;所述输出特征谱对应于输出特征谱缓存,输出特征谱缓存包含至少一个以上的c个地址空间,其中一个地址空间对应的存储n个输出特征谱的同一个位置的输出特征,并且每个地址空间对应的存储的n个输出特征谱的同一个位置的输出特征对应于n个PE运算单元进行划分。
[0010]进一步地,所述n个PE运算单元中的一个PE运算单元分为至少一个以上的n个时段进行运算,在一个时段的运算中PE运算单元输入一组权值参数以及对应于所述权值参数的输入特征数据。
[0011]进一步地,所述第三CNN模块包括:输入模块,其用于将第三CNN模块输入的大于第三CNN模块最大输入尺寸的图像块分割为尺寸小于第三CNN模块最大输入尺寸的A个子图像;
三个依次串联的卷积层以及池化层,卷积层与池化层交叉分布,池化层为最大池化层,最后一个池化层输出A组特征图;合并模块,其用于将最后一个池化层输出A组特征图合并之后得到二维的合并特征图集合,输出到最终决策模块;最终决策模块包括重建模块以及分类模块,重建模块接收到二维的合并特征图集合,将二维的合并特征图集合合并和重新组织为一维向量,分类模块对所述一维向量处理获得人脸检测决策。
[0012]进一步地,所述最后一个池化层输出的A组特征图为三维特征图。
[0013]进一步地,所述第三CNN模块在候选图像区域内由第二人脸窗口划分的第二子区域内基于第三图像尺寸生成具有第三图像尺寸的第三图像块集合,并且基于第四图像尺寸将第三图像块集合的每一个子图像划分为小于第三CNN模块的最大输入大小的第四图像块;每一个子图像划分数量相同的A组第四图像块。
[0014]进一步地,所述第三CNN模块对A组第四图像块进行卷积以及池化获得A组特征图,将最后一个池化层输出A组特征图合并之后得到二维的合并特征图集合,并基于二维的合并特征图集合生成人脸检测决策。
[0015]本专利技术的有益效果在于:本专利技术能够基于输入图像尺寸小的小型的输入硬件CNN模块处理高像素的图像,并且对于硬件CNN模块的架构进行优化,使其能够并行加速卷积,能够同时保证图像处理的速率。
附图说明...

【技术保护点】

【技术特征摘要】
1.一种基于PE架构通道的卷积神经网络加速器,其特征在于,包括:运动检测模块,其用于检测与视频图像中的运动对象相对应的候选图像区域;第一CNN模块,其使用具有第一图像尺寸的滑动窗口处理运动检测模块检测到的候选图像区域,并在候选图像区域内生成第一人脸窗口;第一图像尺寸在第一CNN模块的最大输入图像尺寸与最小输入尺寸之间;第二CNN模块,其使用具有第二图像尺寸的滑动窗口处理运动检测模块检测到的候选图像区域,并在候选图像区域内由第一人脸窗口划分的第一子区域内生成第二人脸窗口;第三CNN模块,其使用具有第三图像尺寸的滑动窗口处理运动检测模块检测到的候选图像区域,并在候选图像区域内由第二人脸窗口划分的第二子区域内生成第三人脸窗口;第一CNN模块、第二CNN模块、第三CNN模块均采用硬件CNN模块,并且第一CNN模块、第二CNN模块与第三CNN模块耦合;第三图像尺寸大于硬件CNN模块的最大输入尺寸;图像分割模块,其连接运动检测模块以及第一CNN模块,用于处理运动检测模块输出的候选图像区域获得图像金字塔,图像金字塔包含不同分辨率的图像集,图像分割模块还用于将图像金字塔的图像集中的图像分割为输入第一CNN模块的图像块,图像块的大小小于硬件CNN模块的最大输入尺寸;所述硬件CNN模块包括一个以上的CNN子模块,CNN子模块包括至少一个以上的n个PE运算单元,n个PE运算单元并行运算;一个PE运算单元输出一个输出特征图,n个PE运算单元同时输出n个输出特征图。2.根据权利要求1所述的一种基于PE架构通道的卷积神经网络加速器,其特征在于,所述第一图像尺寸是基于所述硬件CNN模块的最小输入尺寸成正比。3.根据权利要求1所述的一种基于PE架构通道的卷积神经网络加速器,其特征在于,所述第一图像尺寸与所述硬件CNN模块的最小输入尺寸相同。4.根据权利要求1所述的一种基于PE架构通道的卷积神经网络加速器,其特征在于,所述PE运算单元包括一个以上的n个乘法器以及一组加法树,其中n个乘法器分别接收n个输入通道的输入特征数据以及所述输入特征数据对应的权值参数,并进行卷积运算,加法树用于对所述PE运算单元的一个以上的n个乘法器的卷积运算的结果进行累加运算获得输出特征图。5.根据权利要求4所述的一种基于PE架构通道的卷积神经网络加速器,其特征在于,所述输入特征数据、权值参数、输出特征谱存储于缓存中,其中输入特征数据对应于输入特征谱缓存,输入特征谱缓存包含至少一个以上的a个地址空间,其中一个地址空间对应的存储输入特征谱的一个位置的输入特征...

【专利技术属性】
技术研发人员:罗斌
申请(专利权)人:南京广捷智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1