System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于可重构并行处理器的片上存储系统技术方案_技高网

用于可重构并行处理器的片上存储系统技术方案

技术编号:40188196 阅读:7 留言:0更新日期:2024-01-26 23:51
一种处理器可以包括以二维列阵列布置的多列向量处理单元,其中,多个列堆叠在第一方向上并排放置,并且每个列堆叠具有在第二方向上堆叠的两个列。处理器还可以包括被分成两个部分的存储器单元,两个部分被放置在列阵列在第二方向上的两个相对侧上。每个部分可以包含在第一方向上并排放置的两个存储器块。每个存储器块可以包含两个高速缓存块和多个存储单元组,两个高速缓存块沿邻接相邻存储器块的第一边缘放置,多个存储单元组被放置成通过两个高速缓存块在第一方向上与第一边缘隔开,并且通过路由通道与在第二方向上与列阵列邻接的第二边缘隔开。

【技术实现步骤摘要】

本公开涉及计算机架构,尤其涉及用于单指令多线程(single instructionmultiple threads,simt)计算机处理器的片上存储系统(on-chip memory system)。


技术介绍

1、图形处理单元(graphics processing unit,gpu)架构提供了一种以单指令多线程(single instruction multiple threads,simt)方式执行并行线程的方法。像gpu这样的simt处理器拥有许多被配置为同时执行多个线程的核心,并且特别适合大规模并行计算应用。为了利用多核进行并行执行,计算机程序通常需要通过调用专门设计用于在多个核上工作的应用编程接口(application programming interface,api)的函数来针对多核架构进行定制。最近,利用gpu在传统上由中央处理单元(central processing unit,cpu)处理的应用中执行计算的通用计算gpu(general-purpose computing on gpu,gpgpu)变得更加实用和流行。片上存储系统可以显著提高具有许多处理元件的处理器的性能。但是需要大量的路由来提供存储器访问,这导致了目标频率下的时序收敛(timing closure)和动态开关功耗(dynamic switching power consumption)的问题。因此,本领域需要实现考虑了面积、延迟和功耗的片上存储系统。


技术实现思路

1、本公开描述了用于处理器的片上存储系统的装置、方法和系统,该处理器被配置用于大规模线程级并行处理。该处理器可能具有大量的专用接口,但缺乏真正的异步分布式总线。进程的向量处理单元可以形成列,并且向量处理单元的列可以访问所有高速缓存块(cache block),因此可以访问核中的所有存储器。为了优化面积、延迟和功耗,处理器可以采用仔细调整的布局规划(floorplan),该布局规划通过列到列接口(column-to-columninterface)创建循环数据流,其中,最后的列经由临时存储缓冲器(temporary storagebuffer)循环回至第一列。每个列可以具有驱动后续列的输出fifo的集合。后续列的输入可以驱动列中的多路复用逻辑,其可以将这些信号引导到存储器端口、处理元件或引导到输出fifo和下一列。最后的列可以使其输出fifo驱动临时存储缓冲器,然后由该临时存储缓冲器驱动第一列。

2、为了优化面积和功耗,列可以被堆叠以形成列堆叠(column stack),并且列堆叠可以并排放置,并且可以以圆形方式布置列,使得输出fifo到后续列中的多路复用逻辑的路由距离较短。存在需要从一个列驱动到下一列的许多总线。交换逻辑(the switchinglogic)可以在逐位的基础上操作,因此总线可以是位对齐的(bit-aligned)并沿着列边缘散布。

3、集中式列方法被实现用于处理器。在这种方法中,向量处理单元的列被放置在阵列中,其中,存储器单元被分成多个部分并放置在阵列的两侧。临时存储缓冲器可放置在列阵列的一端,其方向与堆叠列的方向垂直。

4、在示例性实施例中,处理器可以包括以二维列阵列布置的多列向量处理单元,其中,多个列堆叠在第一方向上并排放置,并且每个列堆叠具有在第二方向上堆叠的两个列,以及被分成两个部分的存储器单元,这两个部分在第二方向上放置在列阵列的两个相对侧上。每个列可以包括具有向量算术逻辑单元(arithmetic logic unit,alu)的处理元件(processing element,pe)。存储器单元的每个部分可以包含在第一方向上并排放置的两个存储器块。每个存储器块可以包含两个高速缓存块(cache block)和多个存储单元组(bank of memory cell)。上述两个高速缓存块可以沿邻接相邻存储器块的第一边缘放置。多个存储单元组可以被放置成通过上述两个高速缓存块在第一方向上与第一边缘隔开,并且通过路由通道在第二方向上与邻接列阵列的第二边缘隔开。

本文档来自技高网...

【技术保护点】

1.一种处理器,包括:

2.根据权利要求1所述的处理器,其中,在每个存储器块中,所述多个存储单元组被布置为其间具有间隙,以适应用于所述多个存储单元组与相应存储器块中的所述高速缓存块之间的连接的路由。

3.根据权利要求2所述的处理器,其中,所述间隙具有不同的宽度,其中,离所述相应存储器块中的所述高速缓存块较近的间隙的宽度比离所述相应存储器块中的所述高速缓存块较远的间隙更宽。

4.根据权利要求1所述的处理器,其中,每个存储器块的所述第二边缘具有多个源边缘接口,每个源边缘接口包括用于邻接所述相应存储器块的列堆叠中的列的多个总线,所述多个总线要耦合至所述相应存储器块中的所述高速缓存块和所述相邻存储器块中的高速缓存块。

5.根据权利要求4所述的处理器,其中,用于所述多个源边缘接口中的每个源边缘接口的所述多个总线的引脚散布并重叠在不同的路由层上。

6.根据权利要求4所述的处理器,其中,在每个源边缘接口的所述多个总线中,与用于耦合至所述相邻存储器块中的高速缓存块的总线的引脚组相比,用于耦合至所述相应存储器块中的高速缓存块的总线的引脚组被放置为离所述第一边缘更远。

7.根据权利要求6所述的处理器,其中,在每个源边缘接口的所述多个总线中,耦合至所述相邻存储器块中的所述高速缓存块的总线是穿过所述相应存储器块的馈通总线。

8.根据权利要求6所述的处理器,其中,沿着所述第一边缘,用于耦合至所述相邻存储器块中的同一高速缓存块的不同列的总线在一个镜像边缘接口中被分组在一起,并且在所述第二方向上以顺序放置,其中,来自较远的列的总线被放置为比较近的列更靠近所述列阵列。

9.根据权利要求8所述的处理器,其中,所述镜像边缘还包括用于所述相邻存储器块中的列的总线,以访问所述相应存储器块中的高速缓存块。

10.根据权利要求6所述的处理器,其中,对于所述存储器块中的至少一个存储器块,在每个源边缘接口的所述多个总线中,与用于耦合至离所述列堆叠较远的高速缓存块的总线的引脚组相比,用于耦合至离所述列堆叠较近的高速缓存块的总线的引脚组被放置为离所述第一边缘更远。

11.根据权利要求1所述的处理器,其中,所述路由通道包括数据总线和地址总线,所述数据总线和地址总线用于在邻接所述相应存储器块的列堆叠中的列与所述相应存储器块以及所述相应存储器块的相邻存储器块中的所述高速缓存块之间的布线连接。

12.根据权利要求11所述的处理器,其中,每个高速缓存块具有用于共享存储器访问的第一高速缓存和用于私有存储器访问的第二高速缓存,并且用于每个列的所述布线连接包括到所述第一高速缓存和所述第二高速缓存的单独布线连接。

13.根据权利要求11所述的处理器,其中,所述布线连接包括每个存储器块中的一个或多个延迟级。

14.根据权利要求13所述的处理器,其中,用于所有列到所有高速缓存块的布线连接具有相同数量的延迟级,以具有相同的存储器访问时延。

15.根据权利要求14所述的处理器,其中,在每个列堆叠内,用于第一列访问所述列堆叠的相对侧上的存储器块的布线连接穿过相应列堆叠内的第二列以到达所述列堆叠的所述相对侧上的接触引脚。

16.根据权利要求15所述的处理器,其中,每个列还包括存储器接口,所述存储器接口包含用于将所述数据总线和地址总线驱动到所述存储器块的功能逻辑,并且所述存储器接口在所述第二方向上靠近或位于相应列堆叠的中间。

17.根据权利要求1所述的处理器,其中,每个列还包括提供向量存储器操作的存储器端口(MP)和为相应列中的所述PE提供向量数据交换的交换盒(SB)。

18.根据权利要求17所述的处理器,其中,所述多个列中的一个列的列到列接口包括用于所述列中的所述MP的地址总线、用于来自所述列中的所述PE的输出的第一类型数据总线、以及用于SB到SB数据路由的第二类型数据总线。

19.根据权利要求18所述的处理器,其中,所述第一类型数据总线与所述第二类型数据总线位对齐,其中,不同数据总线的相同位置处的位被分组以被反馈到同一功能逻辑。

20.根据权利要求19所述的处理器,其中,用于所述列到列接口的所述第一类型数据总线和所述第二类型数据总线的引脚以交织放置模式布置。

...

【技术特征摘要】

1.一种处理器,包括:

2.根据权利要求1所述的处理器,其中,在每个存储器块中,所述多个存储单元组被布置为其间具有间隙,以适应用于所述多个存储单元组与相应存储器块中的所述高速缓存块之间的连接的路由。

3.根据权利要求2所述的处理器,其中,所述间隙具有不同的宽度,其中,离所述相应存储器块中的所述高速缓存块较近的间隙的宽度比离所述相应存储器块中的所述高速缓存块较远的间隙更宽。

4.根据权利要求1所述的处理器,其中,每个存储器块的所述第二边缘具有多个源边缘接口,每个源边缘接口包括用于邻接所述相应存储器块的列堆叠中的列的多个总线,所述多个总线要耦合至所述相应存储器块中的所述高速缓存块和所述相邻存储器块中的高速缓存块。

5.根据权利要求4所述的处理器,其中,用于所述多个源边缘接口中的每个源边缘接口的所述多个总线的引脚散布并重叠在不同的路由层上。

6.根据权利要求4所述的处理器,其中,在每个源边缘接口的所述多个总线中,与用于耦合至所述相邻存储器块中的高速缓存块的总线的引脚组相比,用于耦合至所述相应存储器块中的高速缓存块的总线的引脚组被放置为离所述第一边缘更远。

7.根据权利要求6所述的处理器,其中,在每个源边缘接口的所述多个总线中,耦合至所述相邻存储器块中的所述高速缓存块的总线是穿过所述相应存储器块的馈通总线。

8.根据权利要求6所述的处理器,其中,沿着所述第一边缘,用于耦合至所述相邻存储器块中的同一高速缓存块的不同列的总线在一个镜像边缘接口中被分组在一起,并且在所述第二方向上以顺序放置,其中,来自较远的列的总线被放置为比较近的列更靠近所述列阵列。

9.根据权利要求8所述的处理器,其中,所述镜像边缘还包括用于所述相邻存储器块中的列的总线,以访问所述相应存储器块中的高速缓存块。

10.根据权利要求6所述的处理器,其中,对于所述存储器块中的至少一个存储器块,在每个源边缘接口的所述多个总线中,与用于耦合至离所述列堆叠较远的高速缓存块的总线的引脚组相比,用于耦合至离所述列堆叠较近的高速缓存块的总线的引脚组被放置为离所述...

【专利技术属性】
技术研发人员:瑞恩·布雷德伍德朱建斌李原永田敏雄
申请(专利权)人:珠海市芯动力科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1