当前位置: 首页 > 专利查询>东南大学专利>正文

基于稀疏跟踪制造技术

技术编号:39569434 阅读:4 留言:0更新日期:2023-12-03 19:20
本发明专利技术公开了一种基于稀疏跟踪

【技术实现步骤摘要】
基于稀疏跟踪ADC的电荷域存内计算电路及其计算方法


[0001]本专利技术涉及集成电路
,特别涉及一种基于稀疏跟踪
ADC
的电荷域存内计算电路及其计算方法


技术介绍

[0002]在传统的冯
·
诺依曼架构中,中央处理器和存储器分离,两者通过带宽有限的接口传输数据

随着集成电路设计技术及制造工艺的不断发展,处理器的性能大幅提升,而存储器带宽又是有限的,因此数据传输延迟大

能耗高的问题愈为严重,存储器的性能制约了系统整体性能的进一步提升,这也被称作冯诺依曼架构的存储墙问题

此外,人工智能技术蓬勃发展使处理器的计算量大幅增加

对于传统的冯诺依曼架构的处理器来说,大量的能耗和时间消耗在数据的传输上,处理器往往难以达到神经网络对算力和能效的需求

[0003]存内计算
(Computing

in

Memory

CIM)
是解决存储墙问题的一种可行方法

在存算一体架构下,存储器既保留了存储和读写的功能,又可以支持神经网络中常见的一些逻辑或乘加运算

处理器和存储器之间传输存内计算的结果,减少了两者之间数据的传输量,降低了存储器带宽低对系统整体吞吐量的影响,也使得耗费在数据传输上的能耗降低,系统的能量效率提升

[0004]静态随机存储器
(Static Random Access Memory

SRAM)
是易失性存储器的一种,具有
CMOS
工艺兼容

存取速度快,静态功耗低,耐久度高等优点,是存内计算常见的存储器

目前,
SRAM

CIM
可根据计算方式分为时域

模拟域和数字域计算

[0005]时域计算的主流方案通常是使用反相器链实现延时,输入和权重值控制延时的长短,延时通过反相器链累加后通过时间数字转换器
(Time to Digital Convertor

TDC)
量化为数字域结果

时域计算使用延时长短表征计算结果,突破了模拟域中工作电压对计算精度的限制

但时序存内计算方案受工艺

电压

温度
(PVT)
影响严重,若延时单元线性度和匹配度差,则经过延时链累加后的结果难以通过
TDC
正确量化

并且
TDC
面积开销大,对参考时钟的频率和稳定性要求高

部分
TDC
设计时为了减少片上时钟的影响引入内部延时链或锁相环等结构,又进一步增加了
TDC
的面积和功耗开销

[0006]数字域计算在计算时只涉及数字逻辑,计算的精度和准确率较高,但在累加过程中使用的加法器存在功耗和面积开销大等问题

数字逻辑计算在一次运算中仅能实现单比特乘或加,并行度较低,计算乘法需要较多的的逻辑电路及连线,将会导致版图走线困难,面积开销大

[0007]模拟域计算将输入的数据以及存储的权重由数字域转化成电压

电流等模拟量进行计算,计算结束后再将结果量化到数字域

随着存内计算精度的提升,由于电路的工作电压存在上限,模拟信号的信号裕度被进一步压缩,对模数转换的精度有极高的要求,而高精度模拟数字转换器
(Analog to Digital Converter

ADC)
及数字模拟转换器
(Digital to Analog Converter

DAC)
将会带来巨大的延时和功耗开销,降低了系统算力能耗比

因此,对模拟域存内计算来说,高精度和高算力能耗比是互相制约的


技术实现思路

[0008]本专利技术提供一种基于稀疏跟踪
ADC
的电荷域存内计算电路及其计算方法,利用稀疏控制模块和稀疏跟踪
ADC
可以较好地实现对稀疏矩阵乘法的计算与量化处理,并利用稀疏性在大多数情况下实现高效计算

[0009]本专利技术第一方面实施例提供一种基于稀疏跟踪
ADC
的电荷域存内计算电路,包括:
[0010]由局部输入控制单元组成的局部输入控制模块

由稀疏配置的局部字线驱动单元组成的稀疏配置的局部字线驱动模块

具有共享计数的稀疏跟踪
ADC
模块

读写端口

时序控制

存算控制

数字加法器树和移位器模块以及
64
个在行上重复排列的存算单元;
[0011]每个存算单元由
64
个在列上重复排列的存算子单元构成,每一个存算子单元包括4个
6T

SRAM
存储单元
、1
个局部跳选计算单元;
SRAM
存储单元用于存储计算时需要的权重数据;
[0012]每个存算单元后接一个稀疏跟踪
ADC
模块以量化每列的计算结果,即
64
个在列上重复排列的存算子单元共用一个稀疏跟踪
ADC
模块;4列对应4个稀疏跟踪
ADC
模块的输出结果经过所述数字加法器树和移位器模块完成一次运算;外部输入的特征数据经所述稀疏配置的局部字线驱动单元处理后,输入到存算单元的局部跳选计算单元中与权重数据进行乘操作并将电压积累到电容中,多个列向的局部跳选计算单元中的电容并联通过电荷分享实现累加,再通过所述稀疏跟踪
ADC
模块量化获得输出结果,所述数字加法器树和移位器模块对4个所述稀疏跟踪
ADC
模块的输出进行移位相加,组合输出多位计算结果

[0013]在本专利技术的一个实施例中,所述存算子单元包括4个
6T

SRAM
存储单元

局部位线
(LBL)、
互补局部位线
(LBLB)、
字线
(WL)、
横向字线
(HWL)、
全局位线
(GBL)、
互补全局位线
(GBLB)
,第三
NMOS

(N3)
和第四
NMOS

(N4)
;所述
6T

SRAM
存储单元的权重存储节点均与局部本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于稀疏跟踪
ADC
的电荷域存内计算电路,其特征在于,包括:由局部输入控制单元组成的局部输入控制模块

由稀疏配置的局部字线驱动单元组成的稀疏配置的局部字线驱动模块

具有共享计数的稀疏跟踪
ADC
模块

读写端口

时序控制

存算控制

数字加法器树和移位器模块以及
64
个在行上重复排列的存算单元;每个存算单元由
64
个在列上重复排列的存算子单元构成,每一个存算子单元包括4个
6T

SRAM
存储单元
、1
个局部跳选计算单元;
SRAM
存储单元用于存储计算时需要的权重数据;每个存算单元后接一个稀疏跟踪
ADC
模块以量化每列的计算结果,即
64
个在列上重复排列的存算子单元共用一个稀疏跟踪
ADC
模块;4列对应4个稀疏跟踪
ADC
模块的输出结果经过所述数字加法器树和移位器模块完成一次运算;外部输入的特征数据经所述稀疏配置的局部字线驱动单元处理后,输入到存算单元的局部跳选计算单元中与权重数据进行乘操作并将电压积累到电容中,多个列向的局部跳选计算单元中的电容并联通过电荷分享实现累加,再通过所述稀疏跟踪
ADC
模块量化获得输出结果,所述数字加法器树和移位器模块对4个所述稀疏跟踪
ADC
模块的输出进行移位相加,组合输出多位计算结果
。2.
根据权利要求1所述的基于稀疏跟踪
ADC
的电荷域存内计算电路,其特征在于,所述存算子单元包括4个
6T

SRAM
存储单元

局部位线
(LBL)、
互补局部位线
(LBLB)、
字线
(WL)、
横向字线
(HWL)、
全局位线
(GBL)、
互补全局位线
(GBLB)
,第三
NMOS

(N3)
和第四
NMOS

(N4)
;所述
6T

SRAM
存储单元的权重存储节点均与局部位线
(LBL)
相连,所述
6T

SRAM
存储单元的互补权重存储节点与互补局部位线
(LBLB)
相连;其中,第三
NMOS

(N3)
漏极连接局部位线
(LBL)
,源极连接全局位线
(GBL)
,栅极连接横向字线
(HWL)
;第四
NMOS

(N4)
漏极连接互补局部位线
(LBLB)
,源极连接互补全局位线
(GBLB)
,栅极连接横向字线
(HWL)

64
个在列上重复排列的存算子单元共用同一条全局位线
(GBL)
和互补全局位线
(GBLB)

64
个在行上重复排列的存算单元中的每一行上的
6T

SRAM
存储单元共用一条字线
(WL)。3.
根据权利要求1所述的基于稀疏跟踪
ADC
的电荷域存内计算电路,其特征在于,所述局部跳选计算单元
(LJCC)
包括输入信号线
(VIN)
,跳选信号线
(JUMP)
,互补跳选信号线
(JUMPB)
,局部位线
(LBL)
,互补局部位线
(LBLB)
,第五
NMOS

(N5)
,第一传输门
(S1)
,第二传输门
(S2)
,电容
(C)
和积累线
(MBL)
;第一传输门
(S1)
的输入端连接输入信号线
(VIN)
,第一传输门
(S1)
的输出端连接第五
NMOS

(N5)
的漏极和电容
(C)
的上极板,第一传输门
(S1)
的控制端连接局部位线
(LBL)
信号线,第一传输门
(S1)
的互补控制端连接互补局部位线
(LBLB)
信号线;第五
NMOS

(N5)
的源极连接公共端
(VSS)
,第五
NMOS

(N5)
的漏极连接第一传输门
(S1)
的输出端和电容
(C)
的上极板,第五
NMOS

(N5)
栅极连接互补局部位线
(LBLB)
信号线;电容
(C)
的上极板连接第一传输门
(S1)
的输出端和第五
NMOS

(N5)
的漏极,下极板连接第二传输门
(S2)
的输入端;第二传输门
S2
的输入端连接电容
(C)
的下极板,第二传输门
(S2)
的输出端连接积累线
(MBL)
,第二传输门
(S2)
的控制端连接跳选信号线
(JUMP)
信号线,第二传输门
(S2)
的互补控制端连接互补跳选信号线
(JUMPB)。4.
根据权利要求1所述的基于稀疏跟踪
ADC
的电荷域存内计算电路,其特征在于,所述局部输入控制单元由一个2‑4译码器和传输门
S3、
传输门
S4、
传输门
S5、
传输门
S6
组成,2‑4译码器的输入为2比特二进制数字信号,传输门
S3、
传输门
S4、
传输门
S5、
传输门
S6
的输入端分别为
VDIN0、VDIN1、VDIN2、VDIN3
四个不同的外界输入电压,译码器的输出及其反信号接到传输门的控制端上,当译码器输入为
00
时,传输门
S3
打开,传输门
S4、
传输门
S5、
传输门
S6
关闭;当译码器输入为
01
时,传输门
S4
打开,传输门
S3、
传输门
S5、
传输门
S6<...

【专利技术属性】
技术研发人员:司鑫刘斐然刘智超高寅海马雨辰张雨彤张兆阳
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1