The invention discloses a hardware structure and a calculation flow of a two value weight convolution neural network accelerator. The hardware architecture consists of the following parts: static random access memory on three double end piece, were used to cache the input neurons and two value weight of a roll laminated; four convolution processing unit can be calculated according to the calculation operation process control arithmetic unit which completes the main convolution; a feature mapping unit and a cumulative the accumulation volume with array, for further processing of convolution processing unit operation results, to get the final correct values of the output neurons. The whole design exchanges data with off chip memory via dynamic random access memory interface. In addition to the hardware architecture, the present invention also includes a detailed calculation flow that optimizes the hardware architecture and maps the four input features into a complete computing unit. The present invention maximizes the reuse of input data, as far as possible to eliminate the external memory access, can effectively reduce the power consumption of the depth value of two convolutional neural network computing, and can support the deep web, is a can be used for reasonable application of the embedded system side visual case.
【技术实现步骤摘要】
二值权重卷积神经网络加速器的硬件架构及其计算流程
本专利技术设计计算机及电子信息
,特别涉及一种二值权重卷积神经网络专用加速器的硬件架构及其计算流程。
技术介绍
深度卷积神经网络模型在诸多领域譬如图像分类、动作检测、语音识别以及其他大数据分析的任务中取得了极大的突破和成功。一方面,随着卷积神经网络的效果变得越来越好,其本身拓扑结构也在不断加深,参数数量也达到了10的6次方及以上级别,这带来了计算复杂度的极大提升,所需的计算能力爆炸性增长。另一方面,嵌入式系统仅能够提供有限的资源,其功耗也受限在一定范围内,现有常用的使用大规模GPU的解决方案虽然有较高的吞吐率,但其功耗过高(约250W),难以应用于嵌入式系统中。二值权重卷积神经网络是一种简化的卷积神经网络模型,其最早由加拿大蒙特利尔大学的MatthieuCourbariaux等人提出,后又经过Itayhubara、MohammadRasteg等人的改进。此模型通过特别的训练方式将卷积神经网络的权重训练为二值的+1和-1,这使得模型的计算复杂度大大降低,模型的大小也能够被压缩达到32倍。然而尽管如此,对于深度卷积神经网络,即使参数二值化能够使得复杂度有所降低,其仍然需要大量的计算,直接应用于嵌入式系统中很难满足实时性的要求。因此设计一款二值权重卷积神经网络加速器是进一步推动深度神经网络应用于嵌入式系统的理想解决方案之一。目前尚未出现理想的二值权重卷积神经网络加速器。AndriR,CavigelliL,RossiD,etal.YodaNN:AnUltra-LowPowerConvolutionalNeur ...
【技术保护点】
一种二值权重卷积神经网络加速器的硬件架构及计算流程,其特征在于,硬件架构部分包括:11.两个用于存储卷积层输入的双端静态随机存储器,即输入神经元缓存器IMEM,其容量分别能够存储该网络每一层输入的所有通道中的2行,共计4行,此行数所针对的卷积核大小为3×3;12.一个用于保存二值权重卷积神经网络权重的静态随机存储器,即卷积核缓存器FMEM,其容量大小能够将任意一层卷积层的所有二值权重缓存下来,期中每个权重占用1比特;13.四个卷积处理单元,主要根据计算流程完成卷积处理计算;14.一个特征映射累加单元;15.一个卷积累加阵列。
【技术特征摘要】
1.一种二值权重卷积神经网络加速器的硬件架构及计算流程,其特征在于,硬件架构部分包括:11.两个用于存储卷积层输入的双端静态随机存储器,即输入神经元缓存器IMEM,其容量分别能够存储该网络每一层输入的所有通道中的2行,共计4行,此行数所针对的卷积核大小为3×3;12.一个用于保存二值权重卷积神经网络权重的静态随机存储器,即卷积核缓存器FMEM,其容量大小能够将任意一层卷积层的所有二值权重缓存下来,期中每个权重占用1比特;13.四个卷积处理单元,主要根据计算流程完成卷积处理计算;14.一个特征映射累加单元;15.一个卷积累加阵列。2.权利要求1所述的卷积处理单元,其特征在于,包括:21.4个针对对应行的数据缓冲单元DBF,其中包括两列寄存器,每列寄存器可保存4个输入数据,数据可在两列寄存器中流动;22.一个卷积核缓冲单元kernelbuffer,由512个移位寄存器组成,每个移位寄存器为9比特,可保存一个3×3的卷积核,因此卷积核缓冲单元可缓存对应于所有输出通道的某一输入通道的卷积核;23.用于卷积计算中乘累加计算的多入多出滤波器MFIR,每一行有32个MFIR,这32个MFIR的输入共用对应行数据缓冲单元DBF中的输入神经元;24.将卷积处理单元前3行及后三行对应输出神经元累加的快速加法单元FAU。3.二值权重卷积神经网络加速器硬件架构及计算流程,其特征在于,卷积计算流程部分包括以下步骤(其中的英文缩写的指代意义如权利要求1、2中所述):步骤一,从动态随机存储器中读取待处理的所有输入通道的4行数据,缓存进IMEM中,每个IMEM缓存2行;除此之外,从动态随机存储器中读取该卷积层的所有权重保存进如权利要求1所述的FMEM中;步骤二,将4个输入通道的的4行,每行...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。