The present invention discloses an approximate computing system for deep neural network accelerator applications, which includes: on-chip distributed static random access memory: storing compressed weights; control unit and Hoffman decoder: decoding the codes in configuration unit, and control unit allocating data to processing unit array. \u3002 The first \1\ detection circuit detects the first \1\ position of input data, and the processing unit array realizes the multiplication and addition of weights and input data. This technical scheme can solve the problems of slow operation speed, complex computation, and unable to achieve high performance and high operation rate in the accelerator. It achieves the design advantages of high performance, high energy efficiency and high operation rate of the deep neural network accelerator.
【技术实现步骤摘要】
面向深度神经网络加速器应用的近似计算系统
本专利技术属于神经网络近似计算
,特别涉及一种面向深度神经网络加速器应用的近似计算系统设计。
技术介绍
深度学习是机器学习研究中的一个新的领域,其动机在于模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,在多个领域得到应用,有极大的研究与商业价值。深度学习通过对原始信号进行逐层特征变换,将样本在原空间的特征表示变换到新的特征空间,自动地学习得到层次化的特征表示,从而更有利于分类或特征的可视化(参考文献1)。通过深度学习得到的深度网络结构符合神经网络的特征,深度学习应用在图像识别,自动驾驶,人工智能,语音识别等多个领域(参考文献2、3)。目前图像识别已在我们日常生活里被广泛使用,例如扫描图片购物、人脸识别、手写字母识别等等,以后的使用场景只会更加丰富。卷积神经网络功能强大,可以应用在不同的数据资源和平台。现有的深度神经网络表现出了问题处理的强大能力。为了解决更加抽象、更加复杂的学习问题,深度学习的网络规模在不断增加,计算和数据的复杂度也随之剧增,比如GoogleNet网络具有10亿个神经元连接口。CNN网络的规模也越来越大,从手写图像识别网络LeNet-5的五层,AlexNet的8层到VGG的19层,再到ResNet的152层,网络规模日益增大。神经网络的访存密集和计算密集型问题日益突出。如何高能效地实现深度学习相关算法,成为科研与商业机构的研究热点。神经网络计算算法经常严重依赖于大量的乘法,这是既耗时又耗电。但是,有许多简化乘法的实际解决方案,如截断乘法器和对数乘法器。这些方法消耗更少的时间和功率, ...
【技术保护点】
1.一种面向深度神经网络加速器应用的近似计算系统,其特征在于包括:片上分布式静态随机存取存储器,片下压缩后的权重被存放在对应处理单元中的片上分布式静态随机存取存储器中;控制单元和霍夫曼解码器,压缩后的权重的首“1”位置的霍夫曼编码比特流被存储到配置单元的静态随机存取存储器中,霍夫曼解码器对配置单元中的编码进行解码操作,并将结果返回给控制单元,控制单元将数据分配到处理单元阵列;首“1”探测电路,用于得到输入数据的首“1”位置,并将输入数据和其首“1”位置输出到处理单元阵列中;以及,阈值函数单元和处理单元阵列,处理单元阵列包括4*4=16个处理单元,每个处理单元实现权重和输入数据的乘加操作,利用近似计算的设计方法输出运算结果;运算输出的部分和结果放在目标寄存器阵列中,并经过阈值函数单元进行处理后输出最终结果。
【技术特征摘要】
1.一种面向深度神经网络加速器应用的近似计算系统,其特征在于包括:片上分布式静态随机存取存储器,片下压缩后的权重被存放在对应处理单元中的片上分布式静态随机存取存储器中;控制单元和霍夫曼解码器,压缩后的权重的首“1”位置的霍夫曼编码比特流被存储到配置单元的静态随机存取存储器中,霍夫曼解码器对配置单元中的编码进行解码操作,并将结果返回给控制单元,控制单元将数据分配到处理单元阵列;首“1”探测电路,用于得到输入数据的首“1”位置,并将输入数据和其首“1”位置输出到处理单元阵列中;以及,阈值函数单元和处理单元阵列,处理单元阵列包括4*4=16个处理单元,每个处理单元实现权重和输入数据的乘加操作,利用近似计算的设计方法输出运算结果;运算输出的部分和结果放在目标寄存器阵列中,并经过阈值函数单元进行处理后输出最终结果。2.如权利要求1所述的面向深度神经网络加速器应用的近似计算系统,其特征在于:所述各处理单元中均设有累加对数乘法器,累加对数乘法器包括移位器、超前进位加法器、快速优先编码器以及零检测门,移位器获得权重和输入数据的最高有效位,并且通过快速优先编码器控制移位得到下一组乘数与被乘数;零检测门检测输入的乘数和被乘数有没有为0的情况,通过移位器对准乘数与被乘数的相乘位;超前进位加法器实现乘数与被乘数的最高有效位的相加以及相邻两次最高有效位的和的累加。3.如权利要求2所述的面向深度神经网络加速器应用的近似计...
【专利技术属性】
技术研发人员:刘波,夏梦雯,郭世晟,杨晶,龚宇,杨军,
申请(专利权)人:东南大学,东南大学—无锡集成电路技术研究所,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。