存储器计算系统中的饱和本地高速缓存技术方案

技术编号:34005615 阅读:15 留言:0更新日期:2022-07-02 13:17
本申请案的实施例涉及存储器计算系统中的饱和本地高速缓存。基于节点的近存储器计算系统中的时延可能成问题。所述问题的解决方案可包含或使用每一节点处的专用基于软件的高速缓存。所述高速缓存可配置成存储从所述系统中的其它节点中的每一个接收到的信息。在实例中,可在广度优先搜索算法期间填充所述高速缓存以存储来自其它节点中的每一个的边界信息。存以存储来自其它节点中的每一个的边界信息。存以存储来自其它节点中的每一个的边界信息。

【技术实现步骤摘要】
存储器计算系统中的饱和本地高速缓存
[0001]关于联邦资助研究或发展的声明
[0002]本专利技术是在政府支持下依据DARPA授予的合同第HR0011

19
‑3‑
0002号完成的。政府享有本专利技术中的某些权利。
[0003]相关申请的交叉引用
[0004]本申请案要求2020年12月31日提交的美国专利申请案第63/132,799号的优先权益,所述申请案以全文引用的方式并入本文中。


[0005]本申请案的实施例涉及存储器计算系统,确切地说,涉及存储器计算系统中的饱和本地高速缓存。

技术介绍

[0006]例如冯诺伊曼(Von Neumann)架构的各种计算机架构常规地使用用于数据的共享存储器、用于存取共享存储器的总线、算术单元以及程序控制单元。然而,在处理器与存储器之间移动数据可能需要大量时间和能量,这进而可能约束计算机系统的性能和容量。鉴于这些限制,需要新计算架构和装置来推动计算性能超出晶体管规模的实践(即,摩尔定律(Moore's Law))。

技术实现思路

[0007]根据本公开的实施例,提供一种方法,且方法包括:在包含N个不同硬件节点的近存储器计算系统中的第一存储器计算节点处建立N块高速缓存,其中第一存储器计算节点为N个不同硬件节点中的一个,且其中N个不同硬件节点由计算结构耦合;以及对于来自第一存储器计算节点的用以从N个不同节点中的特定一个读取信息的每一初始请求,利用从N个不同节点中的特定一个接收到的边界信息填充高速缓存中的N个块中的对应一个,其中边界信息指示在由计算结构耦合的节点中的一些或全部的先前搜索期间是否发现N个不同节点中的特定一个的父对象。
[0008]根据本公开的实施例,提供一种设备,且设备包括近存储器计算系统中的多个存储器计算节点中的第一存储器计算节点,其中第一存储器计算节点包括处理器,所述处理器配置成执行包括以下各项的操作:建立N块软件高速缓存,其中N个块中的每一个对应于近存储器计算系统中的存储器计算节点中的相应一个;以及使用从近存储器计算系统中的相应存储器计算节点接收到的边界信息填充高速缓存中的相应块。
[0009]根据本公开的实施例,提供一种存储器计算系统,且存储器计算系统包括N个不同存储器计算节点,其由规模结构耦合以提供计算结构,其中N个节点中的每一个包括混合线程处理器和混合线程结构,其中N个不同存储器计算节点中的第一存储器计算节点包括配置成执行包括以下各项的操作的处理器:建立N块软件高速缓存,其中N个块中的每一个对应于由规模结构耦合的存储器计算节点中的相应一个;以及使用从相应节点接收到的边界
信息填充高速缓存中的相应块,其中边界信息指示在由混合线程结构耦合的节点中的一些或全部的先前搜索期间是否发现N个节点中的对应一个的父对象。
附图说明
[0010]为容易地识别对任何特定元件或动作的论述,附图标记中的一或多个最高有效数字指的是首次介绍所述元件的图号。
[0011]图1通常说明根据实施例的在存储器计算系统的上下文中的第一存储器计算装置的第一实例。
[0012]图2通常说明根据实施例的存储器计算装置的存储器子系统的实例。
[0013]图3通常说明根据实施例的用于存储器控制器的可编程原子单元的实例。
[0014]图4说明根据实施例的存储器计算装置的混合线程处理器(HTP)加速器的实例。
[0015]图5说明根据实施例的存储器计算装置的混合线程结构(HTF)的表示的实例。
[0016]图6A通常说明根据实施例的小芯片系统的实例。
[0017]图6B通常说明展示来自图6A的实例的小芯片系统中的各种组件的框图。
[0018]图7通常说明根据实施例的用于存储器计算装置的基于小芯片的实施方案的实例。
[0019]图8说明根据实施例的存储器计算装置小芯片的实例平铺(tiling)。
[0020]图9通常说明跨不同存储器计算装置分布的数据结构的实例。
[0021]图10通常说明跨不同存储器计算装置分布的数据结构的实例,且所述装置中的每一个包含饱和高速缓存。
[0022]图11通常说明将来自不同存储器计算装置的边界信息映射到相应不同饱和高速缓存的实例。
[0023]图12通常说明可包含建立及填充基于节点的饱和高速缓存的实例。
[0024]图13通常说明可包含使用来自本地高速缓存的信息来满足读取请求的实例。
[0025]图14说明实例机器的框图,可利用所述机器、在所述机器中或通过所述机器实施本文中所论述的任何一或多种技术(例如,方法)。
具体实施方式
[0026]可利用材料、装置和集成技术中的最新进展来提供以存储器为中心的计算拓扑。这类拓扑可实现例如用于受大小、重量或功率要求约束的应用的计算效率和工作负荷处理量的进展。拓扑可用于促进存储器或其它数据存储元件附近或内部的低时延计算。方法可尤其非常适合于利用稀疏查找的各种计算密集操作,例如在变换计算(例如,快速傅立叶变换计算(FFT))中,或在例如神经网络或人工智能(AI)、财务分析或模拟或模型化的应用中,所述模拟或模型化例如用于计算流体动力学(CFD)、工程师用增强型声学模拟器(EASE)、以集成电路为重心的模拟程序(SPICE)等。
[0027]本文中所论述的系统、装置和方法可包含或使用具有处理器或处理能力的存储器计算系统,所述处理器或处理能力提供于存储器或数据存储组件中、附近或与存储器或数据存储组件集成。这类系统在本文中通常被称为近存储器计算(compute

near

memory,CNM)系统。CNM系统可为基于节点的系统,其中系统中的个别节点使用系统规模结构耦合。
尤其在预期高高速缓存未命中速率的环境中,每一节点可包含或使用专用或通用处理器以及用户可存取加速器(具有用以促进密集操作的自定义计算结构)。
[0028]如下文更详细地论述,尤其相对于图9到图13,基于节点的CNM系统中的时延可能成问题。问题可包含在系统中的大量节点上有效地使用广度优先搜索(BFS)算法,例如其中每一节点可包含可由同一节点或由系统中的另一节点存取的本地存储器存储装置。本专利技术人已认识到,问题的解决方案可包含或使用每一节点处的专用饱和基于软件的高速缓存。举例来说,在BFS算法中,具有相对较高次数(degree)或具有最多“计数”的顶点的边界(frontier)在搜索期间可更有可能被存取。为改进性能,BFS算法的自下而上(BU)阶段可使用本地高速缓存(例如,系统中的每存储器计算装置的例如1024
×
64位字的软件实施的高速缓存)来存储对于对应于最高次数顶点的边界信息的远程存取的结果。举例来说,在第一节点处,高次数顶点中的一个的第一存取可从远程位置(即,远离第一节点的位置)读取要素,且接着将所述要素存储在第一节点处的本地高速缓存中。以此方式,从第一节点存取相同远程位置的后续尝试可由第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,其包括:在包含N个不同硬件节点的近存储器计算系统中的第一存储器计算节点处建立N块高速缓存,其中所述第一存储器计算节点为所述N个不同硬件节点中的一个,且其中所述N个不同硬件节点由计算结构耦合;以及对于来自所述第一存储器计算节点的用以从所述N个不同节点中的特定一个读取信息的每一初始请求,利用从所述N个不同节点中的所述特定一个接收到的边界信息填充所述高速缓存中的所述N个块中的对应一个,其中所述边界信息指示在由所述计算结构耦合的所述节点中的一些或全部的先前搜索期间是否发现所述N个不同节点中的所述特定一个的父对象。2.根据权利要求1所述的方法,其进一步包括:对于来自所述第一存储器计算节点的用以从所述N个不同节点中的第一节点读取目标信息的初始请求,经由所述计算结构检索来自所述第一节点的所述目标信息且利用从所述第一节点检索的所述目标信息填充所述高速缓存中的所述N个块中的第一个;以及对于来自所述第一存储器计算节点的用以从所述第一节点读取所述目标信息的后续请求,从所述高速缓存中的所述N个块中的所述第一个读取所述目标信息。3.根据权利要求1所述的方法,其进一步包括对于来自所述第一存储器计算节点的用以从所述N个不同节点中的所述特定一个读取信息的后续请求,从对应于所述N个不同节点中的所述特定一个的所述高速缓存块中的所述对应一个读取所述信息。4.根据权利要求1所述的方法,其进一步包括在所述第一存储器计算节点处,确定在从所述近存储器计算系统中的所述其它节点中的一个请求信息之前,是否能够使用来自所述高速缓存的信息满足后续读取请求。5.根据权利要求1所述的方法,其中建立所述N块高速缓存包含将所述高速缓存建立为在所述第一存储器计算节点处实例化的第一软件对象。6.根据权利要求1所述的方法,其中建立所述N块高速缓存包含建立具有相等大小的N个块的所述高速缓存。7.根据权利要求1所述的方法,其中建立所述N块高速缓存包含建立饱和N块高速缓存。8.根据权利要求1所述的方法,其中建立所述N块高速缓存包含建立用于所述近存储器计算系统中的所述N个不同节点中的每一个的高速缓存块,且其中每一高速缓存块包括1024
×
64位字。9.根据权利要求1所述的方法,其进一步包括使用来自自下而上搜索算法的结果填充所述高速缓存中的相应块,其中所述结果包含从相应不同节点接收到的边界信息。10.根据权利要求1所述的方法,其进一步包括使用来自广度优先搜索算法的结果填充所述高速缓存中的相应块,其中所述结果包含从相应不同节点接收到的边界信息。11.根据权利要求10所述的方法,其中填充所述高速缓存中的所述相应块包含基于待搜索的所述节点的连接性而对所述搜索算法进行优先排序,其中具有对其它节点的更多相邻者或连接的节点优先于具有对其它节点的更少相邻者或连接的节点。12.根据权利要...

【专利技术属性】
技术研发人员:S
申请(专利权)人:美光科技公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1