一种“三明治”结构的加速卷积神经网络的存储器制造技术

技术编号:24252323 阅读:19 留言:0更新日期:2020-05-22 23:58
本发明专利技术公开了一种“三明治”结构的加速卷积神经网络的存储器,属于专用集成电路设计、和人工智能技术领域。该设计加速人工智能运算,与传统的用于神经网络加速器相比,采用了数据(特征值和权重)存储‑计算一体化的“三明治”结构,通过减少访问存储器的次数来有效降低芯片整体的功耗,提高能量效率。同时,采用可配置脉宽调制的模拟计算单元阵列完成卷积神经网络(CNN)中卷积运算的乘累加操作,进一步降低芯片功耗和减少芯片面积。核心设计包括:卷积计算阵列“三明治”结构(Sandwich‑RAM)设计、基于脉宽调制的模拟计算单元(Pulse Width Modulation Unit,PWMU)、延时敏感的控制电压产生电路(Delay Sensitive Control Voltage Generator,DSCVG)、可配置的脉冲产生电路(Pulse Generator)和复制计算单元的脉宽量化电路(Pulse Quantizer by Replica Cell,PQRC)。

Memory of an accelerated convolution neural network with sandwich structure

【技术实现步骤摘要】
一种“三明治”结构的加速卷积神经网络的存储器
本专利技术公开了一种“三明治”结构的加速卷积神经网络的存储器,属于专用集成电路设计

技术介绍
卷积神经网络(ConvolutionalNeuralNetwork,CNN)已经成为机器学习的一项重要技术,在模式识别及其相关各种领域都取得了突破性的成果。在深度学习网络的实现中,大量的运算会消耗过多的能耗与硬件资源。因此,通过设计专用CNN专用硬件加速器来提高能效,将是未来人工智能的关键,也将成为未来产业界与学术界研究的热点。经过十多年的参数经验积累和高速发展,大量文献证实CNN在图像分类领域拥有较好的准确率,但是,由于CNN中依旧涉及大量参数的访问和调用,使其很难在物联网(IoT)上做低功耗相关的嵌入式应用。最近,基于二值化权重网络(BinaryWeightNetwork,BWN)的发展有效降低了CNN的计算复杂度。传统的CNN硬件架构是由相互独立的特征和权重存储器(Memory)以及用于卷积计算的乘累加单元(MAC)构成,使完整CNN计算伴随有大量的数据读写操作。为了降低相关功耗,结合CNN的计算模式,提出了将计算单元嵌入在存储器中的方案,这被称为存储内计算的架构。但已经报道的存储内计算的架构依然存在不足,就BWN而言,计算过程中仍存在大量特征数据的存储器读写操作。
技术实现思路
本专利技术的专利技术目的是针对上述
技术介绍
的不足,以高能效、低功耗为目标,提出了一种全新的计算模式和存储架构:、“三明治”结构的加速卷积神经网络的存储器。本专利技术将存有部分特征和权重的存储单元与卷积计算单元嵌入在一起形成一种类似“三明治”的结构来最小化数据的读取操作。本专利技术设计了一种嵌入存储器内部的,小巧而又灵活的基于脉宽调制的模拟计算单元。可配置的脉冲产生电路为上述计算单元生成标准的输入脉冲信号,一种延时敏感的控制电压产生电路生成用于脉宽调制的精准电压。脉宽调制的过程,就是卷积计算单元乘累加的过程,最终输出的脉冲信号由一种复制计算单元的脉宽量化电路量化处理,得到卷积计算的结果。本专利技术为实现上述专利技术目的采用如下技术方案:一种“三明治”结构的加速卷积神经网络的存储器,其核心设计包括:卷积计算阵列“三明治”结构(Sandwich-RAM)设计、基于脉宽调制的模拟计算单元(PulseWidthModulationUnit,PWMU)、延时敏感的控制电压产生电路(DelaySensitiveControlVoltageGenerator,DSCVG)、可配置的脉冲产生电路(PulseGenerator)和复制计算单元的脉宽量化电路(PulseQuantizerbyReplicaCell,PQRC);卷积计算阵列“三明治”结构(Sandwich-RAM),每个PWMU单元都和多组权重值(Weight)及特征值(Feature)的寄存器组紧密相连形成计算子单元,形如Features-PWMU-Weights的“三明治”结构。卷积计算阵列“三明治”结构由多个计算子单元构成,外围电路包括控制器、权重Weights预处理单元、特征Features载入单元、延时敏感的控制电压产生电路、可配置的脉冲产生电路、复制计算单元的脉宽量化电路。基于脉宽调制的模拟计算单元(PWMU),主要结构包括两个级联的脉冲计算单元(DelayChain)和一个控制单元。控制单元控制计算累加类型。脉冲计算单元类似于反相器电路,根据特征输入数据,经过2-4译码器选择不同的参考电压(VREF)控制下拉(放电)电路中NMOS的栅电压,进而调制输入标准脉冲(加法使脉宽变宽,减法使脉宽变窄),已调制的脉冲作为输入再传递到下一级的脉冲计算单元继续计算(脉宽调制),脉冲宽度的变化经过一级级累加后,最后在脉宽量化电路(PQRC)中量化。延时敏感的控制电压产生电路(DSCVG),类似于DLDO原理,为PWMU中的脉冲计算单元提供额外的三组VREF。电路由两组延时链、一组移位寄存器和对应数量的PMOS、另一组移位寄存器和对应数量的NMOS构成。采用反馈结构,实时动态调整VREF。从而保证计算单元能够在这三个VREF控制下,计算结果不会因为PVT的波动导致严重非线性偏差,可配置脉冲的产生电路,产生用于PWMU输入的标准脉冲。通过复制DelayChain中相同的延时单元组成环形振荡器,经分频电路和使能信号产生脉宽合适的脉冲。复制计算单元的脉宽量化电路(PQRC),用于量化脉冲宽度,实现模拟到数字的转化,电路由C2MOS采样寄存器、压缩加法器树、累加电路和产生采样时钟的压控振荡器(VCO)组成,该VCO中的延时单元电路与脉冲计算中单元相同,不同的是VREF用电源电压VDD代替。图1展示的是“三明治”结构的加速卷积神经网络的存储器的整体架构图,控制器(Controller)用于配置和监控Sandwich-RAM的计算模式和工作状态,权重预处理单元(WeightsPre-processingUnit)用于预处理权重数据以降低计算复杂度,后处理单元(Post-ProcessingUnit)包含累加存储器(AccumulationMemory)以及卷积神经网络中常用的数据处理层电路(Pooling、ReLu和BatchNormal),累加存储器将每一行计算后的脉冲量化结果累加得到卷积运算结果(28行并行计算)。本专利技术所设计的“三明治”结构的加速卷积神经网络的存储器有两种工作模式:传统的SRAM模式和卷积计算Computing-SRAM模式。Sandwich-RAM包含28*112个处理块,每个处理块由用于存储部分特征数据、用于存储权重数据的移位寄存器组以及PWMU组成,其中SRAM共享脉冲计算单元,每次计算使用一个特征数据,同时,权重在计算过程中通过移位寄存器更新直到存储器中的特征值完成所有卷积操作。传统存储内计算架构的计算模式是固定的,只能固定一行行或一列列的作计算,在卷积核(kernel)的大小发生变化时(CNN中不同卷积层的卷积核一般不同),卷积计算效率会变低。本专利技术提出的Sandwich-RAM的卷积计算可以依据不同的网络层大小配置成三种模式:大窗口(Large-Window)模式、中窗口(Medium-Window)模式和小窗口(Small-Window)模式;Large-Window模式工作在大尺寸卷积核的卷积层,Medium-Window模式工作中等大小卷积核的卷积层,Large-Window模式工作在小卷积核的卷积层。这三种模式的划分有效提高了Sandwich-RAM的计算效率。控制器将输入的3维的特征值拆分成若干个2维的特征值,每次芯片内存储器预存储特征值并借助Sandwich-RAM完成卷积操作。本专利技术采用上述技术方案,具有以下有益效果:(1)在Sandwich-RAM架构下,最小化访问存储单元的次数,显著降低芯片功耗和提升能量效率;同时Sandwich-RAM的灵活性使系统应用范围更广。(2)采用PWMU完成CNN的卷积操作,有效降低芯片面积和功耗,提高计算效率。(3本文档来自技高网...

【技术保护点】
1.一种“三明治”结构的加速卷积神经网络的存储器,其特征在于,包括:存内卷积计算阵列“三明治”结构(Sandwich-RAM),每个PWMU单元都和多组权重值(Weight)及特征值(Feature)的寄存器组紧密相连形成一个计算子单元,形如Features-PWMU-Weights的“三明治”结构,外围电路包括控制器、Weights预处理单元、Feature载入单元、延时敏感的控制电压产生电路、可配置的脉冲产生电路和复制计算单元的脉宽量化电路,(1)基于脉宽调制的模拟计算单元(PWMU),主要结构包括两个级联的脉冲计算单元(Delay Chain)和一个控制单元,控制单元控制本次计算的累加类型,脉冲计算单元类似于可控延时器,根据两位输入数据(取自Feature),经过2-4译码器选择不同的参考电压(VREF)控制下拉(放电)电路中NMOS的栅电压以控制放电速度,进而调制输入脉冲的宽度 (加法使脉宽变宽,减法使脉宽变窄),调制后脉冲作为输入再传递到下一级的脉冲计算单元继续计算(脉宽调制),脉冲宽度的变化经过一级级累加后,最后在脉宽量化电路(PQRC)中测量转化为数字信号,(2)延时敏感的控制电压产生电路(DSCVG),类似于数字低压降稳压器(Digital Low-dropoutregulator,DLDO)的原理,为PWMU中的脉冲计算单元提供三组不同VREF,该电路由2组延时链、一组移位寄存器和对应数量的PMOS、另一组移位寄存器和对应数量的NMOS构成,采用反馈结构,实时动态调整三组VREF,使得可控延时单元延时保持1倍、2倍、3倍和4倍关系,从而保证延时单元在VREF控制下,计算结果不会因为工艺、电压和温度(Process VoltageTemperature, PVT)波动导致严重非线性偏差,(3)可配置脉冲的产生电路,产生用于PWMU输入的标准脉冲,通过复制延时单元组成环形振荡器,经分频电路和使能信号产生脉宽合适的脉冲,(4)基于复制延时单元的脉宽量化电路(PQRC),用于量化脉冲宽度,实现模拟到数字转化,电路由C2MOS采样寄存器、压缩加法器树、累加电路和产生采样时钟的压控振荡器(VCO)组成,该VCO中的延时单元电路与PWMU 中的相同,所不同的是其VREF均为电源电压。/n...

【技术特征摘要】
1.一种“三明治”结构的加速卷积神经网络的存储器,其特征在于,包括:存内卷积计算阵列“三明治”结构(Sandwich-RAM),每个PWMU单元都和多组权重值(Weight)及特征值(Feature)的寄存器组紧密相连形成一个计算子单元,形如Features-PWMU-Weights的“三明治”结构,外围电路包括控制器、Weights预处理单元、Feature载入单元、延时敏感的控制电压产生电路、可配置的脉冲产生电路和复制计算单元的脉宽量化电路,(1)基于脉宽调制的模拟计算单元(PWMU),主要结构包括两个级联的脉冲计算单元(DelayChain)和一个控制单元,控制单元控制本次计算的累加类型,脉冲计算单元类似于可控延时器,根据两位输入数据(取自Feature),经过2-4译码器选择不同的参考电压(VREF)控制下拉(放电)电路中NMOS的栅电压以控制放电速度,进而调制输入脉冲的宽度(加法使脉宽变宽,减法使脉宽变窄),调制后脉冲作为输入再传递到下一级的脉冲计算单元继续计算(脉宽调制),脉冲宽度的变化经过一级级累加后,最后在脉宽量化电路(PQRC)中测量转化为数字信号,(2)延时敏感的控制电压产生电路(DSCVG),类似于数字低压降稳压器(DigitalLow-dropoutregulator,DLDO)的原理,为PWMU中的脉冲计算单元提供三组不同VREF,该电路由2组延时链、一组移位寄存器和对应数量的PMOS、另一组移位寄存器和对应数量的NMOS构成,采用反馈结构,实时动态调整三组VREF,使得可控延时单元延时保持1倍、2倍、3倍和4倍关系,从而保证延时单元在VREF控制下,计算结果不会因为工艺、电压和温度(ProcessVoltageTemperature,PVT)波动导致严重非线性偏差,(3)可配置脉冲的产生电路,产生用于PWMU输入的标准脉冲,通过复制延时单元组成环形振荡器,经分频电路和使能信号产生脉宽合适的脉冲...

【专利技术属性】
技术研发人员:王镇
申请(专利权)人:南京博芯电子技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1