当前位置: 首页 > 专利查询>东南大学专利>正文

面向深度神经网络加速器应用的近似计算系统技术方案

技术编号:19635756 阅读:41 留言:0更新日期:2018-12-01 16:23
本发明专利技术公开一种面向深度神经网络加速器应用的近似计算系统,包括:片上分布式静态随机存取存储器:存放压缩后的权重;控制单元和霍夫曼解码器:对配置单元中的编码进行解码操作,控制单元将数据分配到处理单元阵列。首“1”探测电路:探测输入数据的首“1”位置;处理单元阵列:实现权重和输入数据的乘加操作。此种技术方案可解决加速器中运算速度慢、运算量复杂、无法实现高性能高运算速率的问题,达到了深度神经网络加速器的高性能、高能效以及高运算速率的设计优点。

Approximate Computing System for Application of Deep Neural Network Accelerator

The present invention discloses an approximate computing system for deep neural network accelerator applications, which includes: on-chip distributed static random access memory: storing compressed weights; control unit and Hoffman decoder: decoding the codes in configuration unit, and control unit allocating data to processing unit array. \u3002 The first \1\ detection circuit detects the first \1\ position of input data, and the processing unit array realizes the multiplication and addition of weights and input data. This technical scheme can solve the problems of slow operation speed, complex computation, and unable to achieve high performance and high operation rate in the accelerator. It achieves the design advantages of high performance, high energy efficiency and high operation rate of the deep neural network accelerator.

【技术实现步骤摘要】
面向深度神经网络加速器应用的近似计算系统
本专利技术属于神经网络近似计算
,特别涉及一种面向深度神经网络加速器应用的近似计算系统设计。
技术介绍
深度学习是机器学习研究中的一个新的领域,其动机在于模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,在多个领域得到应用,有极大的研究与商业价值。深度学习通过对原始信号进行逐层特征变换,将样本在原空间的特征表示变换到新的特征空间,自动地学习得到层次化的特征表示,从而更有利于分类或特征的可视化(参考文献1)。通过深度学习得到的深度网络结构符合神经网络的特征,深度学习应用在图像识别,自动驾驶,人工智能,语音识别等多个领域(参考文献2、3)。目前图像识别已在我们日常生活里被广泛使用,例如扫描图片购物、人脸识别、手写字母识别等等,以后的使用场景只会更加丰富。卷积神经网络功能强大,可以应用在不同的数据资源和平台。现有的深度神经网络表现出了问题处理的强大能力。为了解决更加抽象、更加复杂的学习问题,深度学习的网络规模在不断增加,计算和数据的复杂度也随之剧增,比如GoogleNet网络具有10亿个神经元连接口。CNN网络的规模也越来越大,从手写图像识别网络LeNet-5的五层,AlexNet的8层到VGG的19层,再到ResNet的152层,网络规模日益增大。神经网络的访存密集和计算密集型问题日益突出。如何高能效地实现深度学习相关算法,成为科研与商业机构的研究热点。神经网络计算算法经常严重依赖于大量的乘法,这是既耗时又耗电。但是,有许多简化乘法的实际解决方案,如截断乘法器和对数乘法器。这些方法消耗更少的时间和功率,但会引入错误。尽管如此,它们可以用于延迟时间比精度更重要的情况。Esmaeilzadeh(参考文献4)等人证明神经网络具有更好的容错性。因此,在神经网络计算中,经常会遇到这些情况。(参考文献5)等人提出了一个简单高效的乘法器,通过迭代程序达到任意精度的可能性,然后达到确切的结果。近似乘法器的功耗和精确度之间的权衡一直是业内研究的热点。如何将近似乘法器引入到神经网络中更是本领域研究的热点问题。其中涉及的参考文献如下:[1]BENGIOY.LearningdeeparchitecturesforAI[J].FoundationsandTrendsinMachineLearning,2009,2(1):1-127.[2]MarkoffJ.Scientistsseepromiseindeep-learningprograms[N].TheNewYorkTimes,2012-11-23[3]10BreakthroughTechnologies2013[N].MITTechnologyReview,2013-04-23.[4]EsmaeilzadehH,SampsonA,CezeL,etal.NeuralAccelerationforGeneral-PurposeApproximatePrograms[J].IEEEMicro,2013,33(3):16-27.[5]BabicZ,AvramovicA,BulicP.AnIterativeMitchell'sAlgorithmBasedMultiplier[C]//IEEEInternationalSymposiumonSignalProcessingandInformationTechnology.IEEE,2009:303-308.
技术实现思路
本专利技术的目的,在于提供一种面向深度神经网络加速器应用的近似计算系统,其可解决加速器中运算速度慢、运算量复杂、无法实现高性能高运算速率的问题,达到了深度神经网络加速器的高性能、高能效以及高运算速率的设计优点。为了达成上述目的,本专利技术的解决方案是:一种面向深度神经网络加速器应用的近似计算系统,包括:片上分布式静态随机存取存储器,片下压缩后的权重被存放在对应处理单元中的片上分布式静态随机存取存储器中;控制单元和霍夫曼解码器,压缩后的权重的首“1”位置的霍夫曼编码比特流被存储到配置单元的静态随机存取存储器中,霍夫曼解码器对配置单元中的编码进行解码操作,并将结果返回给控制单元,控制单元将数据分配到处理单元阵列;首“1”探测电路,用于得到输入数据的首“1”位置,并将输入数据和其首“1”位置输出到处理单元阵列中;以及,阈值函数单元和处理单元阵列,处理单元阵列包括4*4=16个处理单元,每个处理单元实现权重和输入数据的乘加操作,利用近似计算的设计方法输出运算结果;运算输出的部分和结果放在目标寄存器阵列中,并经过阈值函数单元进行处理后输出最终结果。上述各处理单元中均设有累加对数乘法器,累加对数乘法器包括移位器、超前进位加法器、快速优先编码器以及零检测门,移位器获得权重和输入数据的最高有效位,并且通过快速优先编码器控制移位得到下一组乘数与被乘数;零检测门检测输入的乘数和被乘数有没有为0的情况,通过移位器对准乘数与被乘数的相乘位;超前进位加法器实现乘数与被乘数的最高有效位的相加以及相邻两次最高有效位的和的累加。上述累加对数乘法器采用自适应精度调节的电路设计,根据权重的不同量化结果,自适应地改变累加对数乘法器的精度,对于16比特的权重,当权重的最高有效位在第0-6位时,通过控制权重的有效长度,实现权重和输入数据的一次累加;当权重的最高有效位在第7-12位时,实现权重和输入数据二次累加;当权重的最高有效位在第13-15位时,累加对数乘法器的电路完全开启,权重和输入数据会一直进行到三次累加输出结果。上述首“1”探测电路采用16比特首“1”探测器。上述16比特首“1”探测器包括8组D触发器组、5个4比特首“1”探测器、5个或门和4组4位选择器,其中,每个D触发器组包含4个D触发器,5个或门均采用四输入或门;第一至第四D触发器组的输出端分别对应连接第一至第四或门的输入端,第一至第四D触发器组的输出端还分别对应连接第一至第四4比特首“1”探测器的输入端;第一至第五4比特首“1”探测器的输出端分别对应连接第一至第四组4位选择器的输入端,第一至第四或门的输出端均连接第五4比特首“1”探测器的输入端,第一至第四或门的输出端还分别连接第五或门的输入端,第五或门的输出端用于输出零输入标志;第一至第四组4位选择器的输出端连接第五至第八D触发器组的输入端。采用上述方案后,本专利技术在处理单元阵列中引入累加对数乘法器,二维处理单元阵列实现权重和输入数据的流水运算,每一个处理单元包括一个静态随机存取存储,实现片上分布式静态随机存取存储的设计,提高访存效率。每一个处理单元阵列通过配置信号可以实现加法和乘法的操作并且引入近似乘法的概念。累积对数乘法器一次计算实现传统对数乘法器的三次迭代的结果。根据权重的量化结果可以自适应调节乘法器的累加次数,关闭部分工作电路,分别实现一次累加、二次累加以及三次累加的乘法结果。本专利技术通过引入累加对数乘法器实现近似计算,提高深度神经网络的运算速度,实现自适应精度可调的神经网络设计,提高了处理单元阵列中数据的存储效率,实现高能效、高性能的深度神经网络加速器。附图说明图1是本专利技术的系统框图;图2(a)是本专利技术中16位首“1”探测电路的电路结构图;图2(b)是本专利技术中4位首“1”探测电路的电路结本文档来自技高网
...

【技术保护点】
1.一种面向深度神经网络加速器应用的近似计算系统,其特征在于包括:片上分布式静态随机存取存储器,片下压缩后的权重被存放在对应处理单元中的片上分布式静态随机存取存储器中;控制单元和霍夫曼解码器,压缩后的权重的首“1”位置的霍夫曼编码比特流被存储到配置单元的静态随机存取存储器中,霍夫曼解码器对配置单元中的编码进行解码操作,并将结果返回给控制单元,控制单元将数据分配到处理单元阵列;首“1”探测电路,用于得到输入数据的首“1”位置,并将输入数据和其首“1”位置输出到处理单元阵列中;以及,阈值函数单元和处理单元阵列,处理单元阵列包括4*4=16个处理单元,每个处理单元实现权重和输入数据的乘加操作,利用近似计算的设计方法输出运算结果;运算输出的部分和结果放在目标寄存器阵列中,并经过阈值函数单元进行处理后输出最终结果。

【技术特征摘要】
1.一种面向深度神经网络加速器应用的近似计算系统,其特征在于包括:片上分布式静态随机存取存储器,片下压缩后的权重被存放在对应处理单元中的片上分布式静态随机存取存储器中;控制单元和霍夫曼解码器,压缩后的权重的首“1”位置的霍夫曼编码比特流被存储到配置单元的静态随机存取存储器中,霍夫曼解码器对配置单元中的编码进行解码操作,并将结果返回给控制单元,控制单元将数据分配到处理单元阵列;首“1”探测电路,用于得到输入数据的首“1”位置,并将输入数据和其首“1”位置输出到处理单元阵列中;以及,阈值函数单元和处理单元阵列,处理单元阵列包括4*4=16个处理单元,每个处理单元实现权重和输入数据的乘加操作,利用近似计算的设计方法输出运算结果;运算输出的部分和结果放在目标寄存器阵列中,并经过阈值函数单元进行处理后输出最终结果。2.如权利要求1所述的面向深度神经网络加速器应用的近似计算系统,其特征在于:所述各处理单元中均设有累加对数乘法器,累加对数乘法器包括移位器、超前进位加法器、快速优先编码器以及零检测门,移位器获得权重和输入数据的最高有效位,并且通过快速优先编码器控制移位得到下一组乘数与被乘数;零检测门检测输入的乘数和被乘数有没有为0的情况,通过移位器对准乘数与被乘数的相乘位;超前进位加法器实现乘数与被乘数的最高有效位的相加以及相邻两次最高有效位的和的累加。3.如权利要求2所述的面向深度神经网络加速器应用的近似计...

【专利技术属性】
技术研发人员:刘波夏梦雯郭世晟杨晶龚宇杨军
申请(专利权)人:东南大学东南大学—无锡集成电路技术研究所
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1