基于忆阻器的存算一体化系统及在线深度学习方法技术方案

技术编号:37667198 阅读:12 留言:0更新日期:2023-05-26 04:26
本发明专利技术公开了基于忆阻器的存算一体化系统及在线深度学习方法,属于信息存储领域,包括:存储模块和控制器;存储模块包括多个Tile,每个Tile包括多个PE,每个PE包含一个或多个忆阻器阵列;控制器用于执行基于映射表的阵列间磨损均衡策略,包括:将每M次写入划分为一个磨损均衡周期;为每一个PE维护总写入次数TWC和磨损均衡周期内写入次数IWC;循环执行:将各PE的IWC均置为0;将运行阶段中PE内阵列的写入次数累积记录到IWC,直至当前磨损均衡周期结束;将各PE的IWC累加到对应的TWC;重建映射表,使得IWC越大,对应的逻辑ID所映射的物理ID对应的TWC越小;进行数据交换。本发明专利技术能够提高基于忆阻器的存算一体化系统中磨损均衡的效果,从而提高系统的整体寿命。而提高系统的整体寿命。而提高系统的整体寿命。

【技术实现步骤摘要】
基于忆阻器的存算一体化系统及在线深度学习方法


[0001]本专利技术属于信息存储领域,更具体地,涉及基于忆阻器的存算一体化系统及在线深度学习方法。

技术介绍

[0002]随着大数据时代的到来,对传统计算体系的计算速度、功耗等方面的需求日益提高,冯
·
诺伊曼问题已经成为限制当前计算机体系进一步发展的重要瓶颈。忆阻器自提出以来,以其非易失、高集成、低功耗等特点,成为下一代半导体存储器极具前景的发展对象之一。忆阻器的计算存储相融合的特点也成为构建新型存算一体化架构的有力基础。由于具有高密度、高能效的特性,基于忆阻器的存算一体化架构在深度神经网络加速的应用中展现了极高的潜力。
[0003]图1所示为经典的基于忆阻器存算一体化的神经网络加速器架构,其采用3层架构设计(Tile/PE/Crossbar),其中的存储结构包含多个Tile,每个Tile进一步包含多个PE,每个PE包含多个忆阻器阵列,忆阻器阵列中的忆阻器单元往往以交叉点阵列的形式组织。
[0004]在以在线深度学习为代表的大规模流式数据场景中,会导致忆阻器阵列的频繁写入,对忆阻器阵列有限的寿命来说是巨大的挑战。此外,写入不均衡会导致基于忆阻器的存算一体化系统寿命急剧下降,“短板效应”凸显,并且在大规模流式数据场景中,写入不均衡问题更加突出。
[0005]为了解决写入不均衡对于忆阻器寿命的影响,研究人员提出了相应的磨损均衡策略,其整体思想在于,将写入尽可能均匀地分布到不同单元中。图2展示了现有的三种阵列内磨损均衡策略的执行示意图,其中的(a)为列移位(columnshift,CS)方案,具体通过对阵列内所有列循环移位实现磨损均衡;(b)为行交换(rowswap,RS)方案,具体通过对矩阵行进行交换实现磨损均衡;(c)为行列交换(rowcolumnswap,RCS)方案,具体通过对阵列内行和列进行交换实现磨损均衡。这些磨损均衡策略一定程度上能够延长阵列寿命,然而现有磨损均衡策略都是在阵列内进行,无法在系统层面进行磨损均衡,因此寿命提升效果十分有限。

技术实现思路

[0006]针对现有技术的缺陷和改进需求,本专利技术提供了一种基于忆阻器的存算一体化系统及在线深度学习方法,其目的在于,提高基于忆阻器的存算一体化系统中磨损均衡的效果,以提高系统的整体寿命。
[0007]为实现上述目的,按照本专利技术的一个方面,提供了一种基于忆阻器的存算一体化系统,包括:存储模块和控制器;
[0008]存储模块包括多个互联的Tile,每个Tile包括多个互联的PE,每个PE包含N个忆阻器阵列;每个PE的逻辑ID到物理ID的映射关系记录于映射表中;N为正整数,且N≥1;
[0009]控制器用于执行基于映射表的阵列间磨损均衡策略,包括:
[0010]将每M次写入划分为一个磨损均衡周期,M为预设正整数;为每一个PE维护元数据TWC和IWC,分别用于记录PE总的写入次数以及在当前磨损均衡周期内的写入次数;在每个磨损均衡周期执行以下步骤:
[0011](S1)将各PE的IWC均置为0;
[0012](S2)将运行阶段中PE内忆阻器阵列的写入次数累积记录到对应的IWC,直至当前磨损均衡周期结束;
[0013](S3)将各PE的IWC累加到对应的TWC;
[0014](S4)重建映射表,使得IWC越大,对应的逻辑ID所映射的物理ID对应的TWC越小;
[0015](S5)基于当前的映射表对PE中存储的数据进行交换。
[0016]进一步地,N=1。
[0017]进一步地,各PE的IWC存储于其忆阻器阵列内部的寄存器中。
[0018]进一步地,存储模块中的多个Tile通过Torus路由进行互联。
[0019]进一步地,存储模块中的一个或多个忆阻器阵列被划分为专用的元数据存储区;
[0020]并且,各PE的TWC存储于元数据存储区。
[0021]按照本专利技术的另一个方面,提供了一种基于本专利技术提供的基于忆阻器的存算一体化系统的在线深度学习方法,其中,基于忆阻器的存算一体化系统用于加速在线深度学习;
[0022]在线深度学习方法包括:
[0023]在反向传播过程中,若任意第k个隐藏层的贡献率α
k
小于预设阈值ε,且自该隐藏层权重W
k
上一次更新时所间隔的数据实例数量小于预设值γ,则不对该隐藏层的权重W
k
进行更新;否则,对该隐藏层的权重W
k
进行更新。
[0024]进一步地,本专利技术提供的在线深度学习方法,还包括:隐藏层权重的更新与步骤(S5)同时执行。
[0025]进一步地,γ=2。
[0026]进一步地,基于忆阻器的存算一体化系统还包括:辅助计算单元,用于执行向量操作;
[0027]并且,在线深度学习方法在反向传播的过程中,权重梯度的计算由辅助计算单元完成。
[0028]进一步地,基于忆阻器的存算一体化系统还包括:全局缓存;
[0029]并且,在线深度学习方法在反向传播的过程中,权重梯度计算所需的中间数据存储于全局缓存。
[0030]总体而言,通过本专利技术所构思的以上技术方案,能够取得以下有益效果:
[0031](1)本专利技术提供的基于忆阻器的存算一体化系统,采用了基于映射表的阵列间磨损均衡策略,该策略为每个PE维护元数据TWC和IWC,TWC用于记录PE总的写入次数,反映了其中阵列在整个生命周期内的总磨损程度,IWC用于记录当前磨损均衡周期内的写入次数,反映了其中阵列的短期写入热度;在每次磨损均衡周期结束时,会重建映射表,使得IWC越大,对应的逻辑ID所映射的物理ID对应的TWC越小,由此将“热”逻辑阵列重新映射到磨损较少的物理阵列,实现了阵列间的磨损均衡,与现有的阵列内磨损均衡方法相比,能够提高磨损均衡的效果,最终提高系统的整体寿命。
[0032]基于映射表的阵列间磨损均衡策略,与现有的阵列内磨损均衡策略是正交的,可
以和现有阵列内磨损均衡策略结合使用,在实现阵列间磨损均衡的基础上实现阵列内磨损均衡,进一步提高磨损均衡效果。
[0033]此外,基于映射表的阵列间磨损均衡策略,可能会使得同属于一个逻辑矩阵的物理阵列在重建映射表后分布在多个Tile中,从而将计算任务分散到多个Tile中,缓解Tile内的带宽争用。
[0034](2)本专利技术提供的基于忆阻器的存算一体化系统,在其优选方案中,每个PE仅包含单个忆阻器阵列,相当于移除了原有的三级(Tile/PE/Crossbar)架构中的PE层次,将系统架构由三级(Tile/PE/Crossbar)层次架构简化为了二级(Tile/Crossbar)层次架构,由此能够减少不必要的通信开销,加快计算速度,进一步提高系统整体的性能。
[0035](3)本专利技术中,IWC是临时性元数据,并且频繁更新,在本专利技术的优选方案中,在二级层次架构下,将IWC存储于忆阻器阵列内部的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于忆阻器的存算一体化系统,其特征在于,包括:存储模块和控制器;所述存储模块包括多个互联的Tile,每个Tile包括多个互联的PE,每个PE包含N个忆阻器阵列;每个PE的逻辑ID到物理ID的映射关系记录于映射表中;N为正整数,且N≥1;所述控制器用于执行基于映射表的阵列间磨损均衡策略,包括:将每M次写入划分为一个磨损均衡周期,M为预设正整数;为每一个PE维护元数据TWC和IWC,分别用于记录PE总的写入次数以及在当前磨损均衡周期内的写入次数;在每个磨损均衡周期执行以下步骤:(S1)将各PE的IWC均置为0;(S2)将运行阶段中PE内忆阻器阵列的写入次数累积记录到对应的IWC,直至当前磨损均衡周期结束;(S3)将各PE的IWC累加到对应的TWC;(S4)重建映射表,使得IWC越大,对应的逻辑ID所映射的物理ID对应的TWC越小;(S5)基于当前的映射表对PE中存储的数据进行交换。2.如权利要求1所述的基于忆阻器的存算一体化系统,其特征在于,N=1。3.如权利要求2所述的基于忆阻器的存算一体化系统,其特征在于,各PE的IWC存储于其忆阻器阵列内部的寄存器中。4.如权利要求2所述的基于忆阻器的存算一体化系统,其特征在于,所述存储模块中的多个Tile通过Torus路由进行互联。5.如权利要求1~4任一项所述的基于忆阻器的存算一体化系统,其特征在于,所述存储...

【专利技术属性】
技术研发人员:冯丹童薇周恒吴兵程欢赵威魏学亮刘锦鹏刘怡博
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1