【技术实现步骤摘要】
一种基于注意力区域的DCNN加速器
[0001]本专利技术涉及目标检测领域,具体涉及一种基于注意力区域的DCNN加速器。
技术介绍
[0002]在以往的one stage目标检测中,没有针对视频流优化检测方法的硬件加速器。然而在视频目标检测中,不同于图片检测,相邻几帧具有很强的内容关联性。这意味着可以预知下一帧目标出现的位置并判断出视野中哪些区域是没有价值的。此外,以往的工作中,可重配置计算精度的加速器往往是先对DCNN模型离线进行精度需求量化,并且量化的粒度仅仅是层级粒度Layer level。这种方法有一定的缺点:第一,Layer level的精度量化无法区别同一层中不同卷积核的重要程度,显得比较粗糙;第二,离线的精度量化无法在模型运行中动态地对各层特征图Feature Map的不同区域(卷积窗口集,Conv Windows Set)进行量化。这些缺点使得这些加速器面临一些局限性:第一,加速器可能要做更多没有必要的高精度计算,增加了计算资源开销。第二,无法针对不同的视频流进行动态的计算精度调整,缺乏灵活性。
[0 ...
【技术保护点】
【技术特征摘要】
1.一种基于注意力区域的DCNN加速器,其特征在于:所述加速器基于多核心架构,每个核心处理一个子图像;当子图像较大时,将其分解为两个部分交给两个核心进行处理;核心之间进行数据的通信;所述加速器进行目标识别时,核心的并行方式首先为子图像并行,在子图像在重新组合后,完整特征图被广播到所有Node中,不同的Node获得不同的卷积核,Node之间转变为卷积核级并行;对于待目标识别的视频流,每隔固定时间对其中完整的帧图像进行检测识别,加速器根据检测结果更新注意力区域;在其他时间,加速器只检测注意力区域;其中注意力区域包括比被识别的目标框长与宽稍大的区域和图像的边缘区域;所述加速器中,分别对于子图像的Weight数据和Activation数据进行细粒度精度量化的处理,包括对于Weight数据的基于零率占比标记计算精度及排序输出的卷积核粒度分析、以及对于Activation数据的基于零率阈值标记计算精度及排序输出的卷积窗口集粒度量化。2.根据权利要求1所述的一种基于注意力区域的DCNN加速器,其特征在于:加速器由多个核心Node和一个中心核心CentralNode组成;Node之间通过片上网络NoC相互连接与通信;CentralNode中运行顶层逻辑,包括运行注意力机制、对Node的计算任务分配、后期的数据Reshape;每个Node独立运行卷积神经网络CNN;每个Node由8个PE阵列PEArray、权重寄存器堆WeightRegFiles、底寄存器堆Bottom RegFiles、右寄存器堆RightRegFiles、零率检测器ZeroDetector、重排序缓存RearrangeBuffer、512KB和256KB突触/神经元缓存Synapses/NeuralBuffer、网络接口NetworkInterface和控制单元ControlUnit组成;ControlUnit从指令缓存InstBuffer读取指令控制Node的运行;512KB和256KB大小的Synapses/NeuralBuffer的存储内容能够调换;Synapses/NeuralBuffer向BottomRegFiles和Right RegFiles传输Activation数据、向WeightRegFiles传输Weight数据;其中每个PE阵列由16个处理单元PE组成。3.根据权利要求1所述的一种基于注意力区域的DCNN加速器,其特征在于:当加速器进行子图像并行时,利用512KB的Synapses/NeuralBuffer用于存储权重Weight数据,256KB的Synapses/NeuralBuffer用于存储激活Activation数据;当加速器由子图像并行转变为卷积核级并行时,512KB的Synapses/NeuralBuffer用于存储Activation数据,256KB的Synapses/NeuralBuffer用于存储Weight数据。4.根据权利要求2所述的一种基于注意力区域的DCNN加速器,其特征在于:PEArrays从RegFiles读取参与计算的数据;每个PE Array的输出数据经过一个ZeroDetector,ZeroDetector用于检测输出数据的零率;经过ZeroDetector的数据存入Rearr...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。