一种基于PE架构通道的卷积神经网络加速器制造技术

技术编号：33922585 阅读：17 留言：0更新日期：2022-06-25 21:15

本发明专利技术公开了一种基于PE架构通道的卷积神经网络加速器，包括运动检测模块，其用于检测与视频图像中的运动对象相对应的候选图像区域；第一CNN模块，其使用具有第一图像尺寸的滑动窗口处理运动检测模块检测到的候选图像区域，并在候选图像区域内生成第一人脸窗口；第一图像尺寸在第一CNN模块的最大输入图像尺寸与最小输入尺寸之间；第一CNN模块、第二CNN模块、第三CNN模块均采用硬件CNN模块，并且第一CNN模块、第二CNN模块与第三CNN模块耦合；本发明专利技术能够基于输入图像尺寸小的小型的输入硬件CNN模块处理高像素的图像，并且对于硬件CNN模块的架构进行优化，使其能够并行加速卷积，能够同时保证图像处理的速率。能够同时保证图像处理的速率。能够同时保证图像处理的速率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于PE架构通道的卷积神经网络加速器

[0001]本专利技术涉及卷积神经网络
，更具体地说，它涉及一种基于PE架构通道的卷积神经网络加速器。

技术介绍

[0002]卷积神经网络以其强大的表征能力，在目标识别、自动驾驶及人工智能等领域得到了广泛的应用，成为了深度学习领域重要的算法之一。随着算法地不断演进，卷积神经网络的网络结构变得越来越深，给部署卷积神经网络的设备带来极大挑战。卷积神经网络中的卷积运算占据了整个网络90%以上的运算量，卷积神经网络加速器的关键组件是处理卷积运算的功能单元。
[0003]目前，卷积神经网络加速器通常采用脉动阵列结构，如图1所示。该结构由功能相同的运算单元(PE)组成矩阵形式，每个运算单元的功能为进行乘加运算，并设计相应的缓存和控制逻辑。该架构运算过程如下：1) 权值广播：将阵列中的每一行PE分成一组，权值参数按行广播到各组中，各组中的PE共用同一个权值参数；2)输入特征：将阵列中对角线上PE划分成一组，输入特征按行输入到各组中，各组内的PE共用同一个输入特征值；3)输出结果：将整列中的每一列PE划分成一组，将各组内每个PE的计算结果相加，即可得到卷积计算的中间结果。该方案主要侧重点在于能效，主要体现在数据复用方面，首先权值参数广播到网络中，存储到每个PE的缓存中，直到对应该权值参数的所有输入特征数据都输入完之后才更换，体现了权值参数的复用；其次，输入特征按行输入后，每个卷积的输入特征有重叠，体现了输入特征的复用；脉动阵列结构具有设计简单而规则、容易实现高并行性，且运算单元

【技术保护点】

【技术特征摘要】
1.一种基于PE架构通道的卷积神经网络加速器，其特征在于，包括：运动检测模块，其用于检测与视频图像中的运动对象相对应的候选图像区域；第一CNN模块，其使用具有第一图像尺寸的滑动窗口处理运动检测模块检测到的候选图像区域，并在候选图像区域内生成第一人脸窗口；第一图像尺寸在第一CNN模块的最大输入图像尺寸与最小输入尺寸之间；第二CNN模块，其使用具有第二图像尺寸的滑动窗口处理运动检测模块检测到的候选图像区域，并在候选图像区域内由第一人脸窗口划分的第一子区域内生成第二人脸窗口；第三CNN模块，其使用具有第三图像尺寸的滑动窗口处理运动检测模块检测到的候选图像区域，并在候选图像区域内由第二人脸窗口划分的第二子区域内生成第三人脸窗口；第一CNN模块、第二CNN模块、第三CNN模块均采用硬件CNN模块，并且第一CNN模块、第二CNN模块与第三CNN模块耦合；第三图像尺寸大于硬件CNN模块的最大输入尺寸；图像分割模块，其连接运动检测模块以及第一CNN模块，用于处理运动检测模块输出的候选图像区域获得图像金字塔，图像金字塔包含不同分辨率的图像集，图像分割模块还用于将图像金字塔的图像集中的图像分割为输入第一CNN模块的图像块，图像块的大小小于硬件CNN模块的最大输入尺寸；所述硬件CNN模块包括一个以上的CNN子模块，CNN子模块包括至少一个以上的n个PE运算单元，n个PE运算单元并行运算；一个PE运算单元输出一个输出特征图，n个PE运算单元同时输出n个输出特征图。2.根据权利要求1所述的一种基于PE架构通道的卷积神经网络加速器，其特征在于，所述第一图像尺寸是基于所述硬件CNN模块的最小输入尺寸成正比。3.根据权利要求1所述的一种基于PE架构通道的卷积神经网络加速器，其特征在于，所述第一图像尺寸与所述硬件CNN模块的最小输入尺寸相同。4.根据权利要求1所述的一种基于PE架构通道的卷积神经网络加速器，其特征在于，所述PE运算单元包括一个以上的n个乘法器以及一组加法树，其中n个乘法器分别接收n个输入通道的输入特征数据以及所述输入特征数据对应的权值参数,并进行卷积运算，加法树用于对所述PE运算单元的一个以上的n个乘法器的卷积运算的结果进行累加运算获得输出特征图。5.根据权利要求4所述的一种基于PE架构通道的卷积神经网络加速器，其特征在于，所述输入特征数据、权值参数、输出特征谱存储于缓存中，其中输入特征数据对应于输入特征谱缓存，输入特征谱缓存包含至少一个以上的a个地址空间，其中一个地址空间对应的存储输入特征谱的一个位置的输入特征...

【专利技术属性】
技术研发人员：罗斌，
申请(专利权)人：南京广捷智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人