The present invention provides a method for neural network accelerator and its realization of the neural network interface partition, the accelerator includes calculating processing unit, a plurality of bit different weights of input buffer, buffer, output buffer, data shifter and external memory; each of the calculation processing unit acquires data from the input buffer and buffer weight the parallel processing of neural network layer and its width is consistent with the data; the data for the current displacement calculation processing unit output data conversion processing units corresponding to a calculation processing unit should be consistent with the calculated width; the external memory, for storing the calculation processing unit before processing and after processing the data. The invention of multiple short bit data for Mac operations, increase the rate of utilization of DSP; using different bit parallel computing of the CP neural network improves the throughput of each layer, the accelerator.
【技术实现步骤摘要】
用于位宽分区的神经网络加速器及其实现方法
本专利技术是关于计算机视觉技术,特别是关于一种用于位宽分区的神经网络加速器及其实现方法。
技术介绍
近些年来,卷积神经网络在许多计算机视觉应用中取得了巨大的进展,比如图像识别、视频分类、手势识别等。最近,随着越来越多的基于卷积神经网络(CNN)算法的提出,CNN的识别精度被极大地提升,在2015年的ILSVRC会议上识别精度达到了96.4%。但是CNN为了达到如此高的识别精度,在CNN中需要引入非常复杂的算法,这些算法会增加硬件计算资源的开销,而且极大地限制了CNN在硬件层面的性能提升。因此,现在有许多的针对CNN的加速方法被提出以增加CNN的计算性能,比如设计CNN专用芯片、利用FPGA计算加速等方法。在这些方法中,基于FPGA的CNN加速器设计方法被广泛的采用,因为FPGA具有高性能、设计灵活、快速运算时效等特点。典型的CNN由多个层组成,包括卷积层和全连接层。对于图像识别应用,图像在通过卷积和全连接层之后变成高级特征图像。最后,分类器读取这些提取的特征并输出图像可能属于的每个类别的概率。卷积是CNN中最关键的操作,并且占据了90%以上的算法操作量。因此提升卷积层的性能是提升CNN计算性能的核心,通常大部分的硬件加速器设计是围绕卷积层来做的。现在主流的基于FPGA的加速器设计方法包括C.Zhang等人在“Optimizingfpga-basedacceleratordesignfordeepconvolutionalneuralnetworks”(FPGA,2015)中提出的方法,通过设计一个单一位宽的计算处理 ...
【技术保护点】
一种用于位宽分区的神经网络加速器,其特征在于,包括:多个位宽不同的计算处理单元,输入缓存器,权重缓存器,输出缓存器,数据位移器及外部存储器;所述输入缓存器,权重缓存器,输出缓存器及数据位移器连接至所述外部存储器;所述的计算处理单元分别与对应的输入缓存器,权重缓存器及输出缓存器连接;所述数据位移器连接至对应的输出缓存器;各个所述计算处理单元从对应的输入缓存区及权重缓存器获取与其位宽一致的神经网络层的数据,并对获取的数据进行并行处理;所述数据位移器用于将当前计算处理单元输出的数据的位宽转换为与该当前计算处理单元对应的下一计算处理单元的位宽一致;外部存储器,用于存储计算处理单元处理前及处理后的数据。
【技术特征摘要】
1.一种用于位宽分区的神经网络加速器,其特征在于,包括:多个位宽不同的计算处理单元,输入缓存器,权重缓存器,输出缓存器,数据位移器及外部存储器;所述输入缓存器,权重缓存器,输出缓存器及数据位移器连接至所述外部存储器;所述的计算处理单元分别与对应的输入缓存器,权重缓存器及输出缓存器连接;所述数据位移器连接至对应的输出缓存器;各个所述计算处理单元从对应的输入缓存区及权重缓存器获取与其位宽一致的神经网络层的数据,并对获取的数据进行并行处理;所述数据位移器用于将当前计算处理单元输出的数据的位宽转换为与该当前计算处理单元对应的下一计算处理单元的位宽一致;外部存储器,用于存储计算处理单元处理前及处理后的数据。2.根据权利要求1所述的神经网络加速器,其特征在于,所述数据位移器具体用于对数据进行截位或者补0的方式进行位宽转换。3.根据权利要求1所述的神经网络加速器,其特征在于,所述外部存储器根据位宽被划分为不同的部分,每个部分分别存储对应位宽的数据。4.根据权利要求1所述的神经网络加速器,其特征在于,所述输入缓存器及权重缓存器的位宽与对应的计算处理单元位宽一致。5.根据权利要求1所述的神经网络加速器,其特征在于,所述输出缓存器的...
【专利技术属性】
技术研发人员:尹首一,郭建辛,欧阳鹏,唐士斌,涂锋斌,刘雷波,魏少军,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。