一种低温高能效存内计算加速器制造技术

技术编号:37613979 阅读:13 留言:0更新日期:2023-05-18 12:05
本发明专利技术公开了一种低温高能效存内计算加速器。本发明专利技术的创新之处在于:高保留时间的低温3T存储单元设计:本发明专利技术提出了一种基于eDRAM的低温3T存储单元设计,它可以在没有任何字线电压提升方案的情况下显著提升保留时间,在写操作过程中实现全摆幅数据传输。低温自适应可重构灵敏放大器设计:本发明专利技术开发了一种低温片上自适应可重构灵敏放大器设计,通过配置ARSA的参考电压,可以实现片上精确的布尔逻辑计算。低温优化的Flash ADC设计:本发明专利技术使用所设计的ARSA,在片上自适应产生15个ARSA的参考电压,并重构为4bit Flash ADC。通过片上的自适应配置参考电压以及存储方式,该设计可以确保快速且低功耗卷积计算实现。以确保快速且低功耗卷积计算实现。以确保快速且低功耗卷积计算实现。

【技术实现步骤摘要】
一种低温高能效存内计算加速器


[0001]本专利技术涉及一种低温高能效存内计算加速器(CIMC)的设计。

技术介绍

[0002]随着集成电路产业遵循摩尔定律的发展达到瓶颈,越来越多的研究工作正在寻找替代技术和架构以进一步的提高性能。低温环境下CMOS接近理想性能的特性[1][2]进一步推动低温应用的发展,而低温计算也在过去几年中获得了相当大的关注。然而,低温计算并不能消除当前的性能瓶颈,例如内存墙。为了解决上述问题,基于存内计算的低温计算架构是一个非常有前景的解决思路。它们适合在低温下运行,通过极高的能效降低冷却成本,并在对架构进行相对较小的调整的情况下实现高能效计算和存储能力。
[0003]然而,现有的存内计算研究[3

7]在提高低温下的能效方面仍然存在几个挑战:现有的低温eDRAM在实现可靠的写操作来说不是最佳的,其存储单元拓扑结构在低温下需要重新设计;低温计算不同场景中对不同计算操作的需求,需要高能效的布尔逻辑计算实现,以及高能效的卷积运算。
[0004]参考文献:
[0005][1]D.Min,I.Byun,G.

H.Lee,S.Na,and J.Kim,“Cryocache:A fast,large,and cost

effective cache architecture for cryogenic computing,”in Proceedings of the Twenty

Fifth International Conference on Architectural Support for Programming Languages and Operating Systems,ser.ASPLOS

20.New York,NY,USA:Association for Computing Machinery,Mar.2020,p.449

464.
[0006][2]I.Byun,D.Min,G.

h.Lee,S.Na,and J.Kim,“Cryocore:A fast and dense processor architecture for cryogenic computing,”in 2020ACM/IEEE 47th Annual International Symposium on Computer Architecture(ISCA),May 2020,pp.335

348.
[0007][3]Chen,Zhengyu,Xi Chen,and Jie Gu."15.3A 65nm 3T Dynamic Analog RAM

Based Computing

in

Memory Macro and CNN Accelerator with Retention Enhancement,Adaptive Analog Sparsity and 44TOPS/W System Energy Efficiency."2021IEEE International Solid

State Circuits Conference(ISSCC).Vol.64.IEEE,2021.
[0008][4]Xie,Shanshan,et al."16.2eDRAM

CIM:compute

in

memory design with reconfigurable embedded

dynamic

memory array realizing adaptive data converters and charge

domain computing."2021IEEE International Solid

State Circuits Conference(ISSCC).Vol.64.IEEE,2021.
[0009][5]Dong,Qing,et al."15.3A 351TOPS/W and 372.4GOPS compute

in

memory SRAM macro in 7nm FinFET CMOS for machine

learning applications."2020IEEE International Solid

State Circuits Conference

(ISSCC).IEEE,2020.
[0010][6]Fujiwara,Hidehiro,et al."A 5

nm 254

TOPS/W 221

TOPS/mm 2Fully

Digital Computing

in

Memory Macro Supporting Wide

Range Dynamic

Voltage

Frequency Scaling and Simultaneous MAC and Write Operations."2022IEEE International Solid

State Circuits Conference(ISSCC).Vol.65.IEEE,2022.
[0011][7]Si,Xin,et al."24.5A twin

8T SRAM computation

in

memory macro for multiple

bit CNN

based machine learning."2019IEEE International Solid

State Circuits Conference

(ISSCC).IEEE,2019.

技术实现思路

[0012]本专利技术要解决的技术问题是:现有的低温eDRAM在实现可靠的写操作来说不是最佳的,其存储单元拓扑结构在低温下需要重新设计;低温计算不同场景中对不同计算操作的需求,需要高能效的布尔逻辑计算实现,以及高能效的卷积运算。
[0013]为了解决上述技术问题,本专利技术的技术方案是提供了一种低温高能效存内计算加速器,其特征在于,包括C3T宏,每个C3T宏包括M行
×
N列的存储单元C3T阵列,输入信号通过数字时序转换器阵列转换成相应脉宽的时序信号并控制C3T宏中相应行的存储单元C3T对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种低温高能效存内计算加速器,其特征在于,包括C3T宏,每个C3T宏包括M行
×
N列的存储单元C3T阵列,输入信号通过数字时序转换器阵列转换成相应脉宽的时序信号并控制C3T宏中相应行的存储单元C3T对对应列的位线RBL的充放电;相应列位线RBL上的电压经由每个C3T宏中配置的灵敏放大器采样获取最终的结果,其中:在非卷积操作时,相应列位线RBL直接与灵敏放大器连接;在卷积操作模式中,通过控制开关的通断:先在每列位线RBL上接入相同大小的卷积电容;在完成对卷积电容的充放电之后,使得相邻两列位线RBL连接在一起,实现不同列之间的电荷重分配;最后,断开位线RBL与灵敏放大器的连接,并使得不同列上不同大小的电荷被灵敏放大器采样并产生最终的输出结果。2.如权利要求1所述的一种低温高能效存内计算加速器,其特征在于,所述存储单元C3T包括一对互补的CMOS结构构成的传输门写端口以及由单管NMOS构成的读端口;对于写操作,存储数据经由写位线WBL并通过一对写字线WWL、WWLB控制的传输门写端口完成数据写入到存储节点SN;对于读操作,通过控制读信号RWL的脉宽长度来完成对位线RBL的不同充放电行为。3.如权利要求1所述的一种低温高能效存内计算加速器,其特征在于,在所述灵敏放大器的两个输入端分别设置一个传输门开关和一个存储电容,则所述灵敏放大器每一侧的输入...

【专利技术属性】
技术研发人员:束宇豪张宏图哈亚军
申请(专利权)人:上海科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1