用于处理TCF感知处理器的存储器访问的方法和装置制造方法及图纸

技术编号:29924294 阅读:19 留言:0更新日期:2021-09-04 18:40
本发明专利技术公开了一种用于处理TCF感知处理器的共享数据存储器访问的装置。所述装置至少包括灵活延迟处理单元(601),所述灵活延迟处理单元包括本地存储器(602)和相关控制逻辑,所述本地存储器被提供用于存储共享数据存储器访问相关数据。所述装置被配置成接收包括至少一个指令的至少一个TCF,所述至少一个指令与至少一个纤程相关联,其中所述灵活延迟处理单元被配置成:确定所述至少一个指令是否需要共享数据存储器访问;如果需要共享数据存储器访问,则发送共享数据存储器访问请求;通过所述灵活延迟处理单元,基本上连续地观察是否接收到对所述共享数据存储器访问请求的回复;暂停继续执行所述指令,直至接收到回复;以及在接收到所述回复后继续执行所述指令,使得与所述共享数据存储器访问相关联的延时通过实际所需的共享数据存储器访问延迟动态地确定。需的共享数据存储器访问延迟动态地确定。需的共享数据存储器访问延迟动态地确定。

【技术实现步骤摘要】
【国外来华专利技术】用于处理TCF感知处理器的存储器访问的方法和装置


[0001]本专利技术总体上涉及计算机技术。特别地,本专利技术涉及处理器的存储器访问。

技术介绍

[0002]与涉及多线程计算的软件相关,由于当前模型的局限性,大量并行线程之间的高效协作的组织一直是一个根本问题。在V.Leppanen,M.Forsell,和J

M.Makela,《厚控制流:介绍与展望(Thick Control Flows:Introduction and Prospects)》,2011年国际并行和分布式处理技术与应用会议论文集(PDPTA

11),拉斯维加斯,美国,第540

546页,2011中介绍了并行厚控制流(TCF)的概念作为一种解决方案。当厚控制流(就纤程的数量而言,纤程类似于线程)执行程序的语句或表达式时,所有纤程都被认为是同步并行地执行同一程序元素。厚控制流的概念允许程序员专注于少数几个并行的厚控制流的协作,而不是大量的并行线程。
[0003]程序员可以有利地利用TCF的概念,此外,至少有一些TCF的实现选择表明替代传统线程概念的概念可能对处理器内核有用,因为它支持理论模型具有灵活性,消除了软件和硬件冗余,并且简化了指令存储系统。
[0004]先前已在M.Forsell,J.Roivainen和V.《厚控制流架构概述(Outline of aThick Control Flow Architecture)》,2016年国际计算机架构与高性能计算研讨会专题论文集(SBAC

PADW),洛杉矶,加利福尼亚州,2016,第1

6页中提出了一种用于执行为TCF模型编写的程序的架构——厚控制流处理器架构(TPA)。
[0005]通常,大多数处理器架构利用了多指令流多数据流(MIMD)模型,其中来自不同指令流的P个指令在P个处理元件中执行。这可能会浪费包含自相似性的代码的资源。此类代码的更优化的解决方案是使用单指令流多数据流(SIMD),其中用于P个数据元素的同一指令在P个处理单元中执行。尽管SIMD更具成本效益、更易于编程并且其实现具有功耗更低的特征,但它不能高效地执行具有线程间受控的并行性和异构性的代码。以下事实引发了另一个维度的问题:在MIMD和SIMD架构的实现中,硬件线程的数量是固定的,并且当软件线程的数量超过支持的数量时会增加开销。
[0006]为了适应在同构性、异构性、线程数量方面具有不同特性的代码部分并能高效地执行它们,引入TCF模型——其中通过同一控制路径的同构线程(或“纤程”,因为它们可以被称为与TCF有关,以将它们与常规并行编程的更独立的“线程”区分开来)组合成被称为TCF的实体——从而有可能利用SIMD样式的优化并保留在必要时拥有MIMD模型的多个流的可能性。TCF模型不提供固定数量的线程,而是提供一些具有一定厚度的控制流,这些控制流可以根据应用程序的需要而变化。
[0007]影响并行计算的另一组问题与相互通信的装置有关。在共享存储器架构(SMA)中,数据和程序分区通常是通过将需要由多个线程处理的数据置入共享存储器中并将程序更独立地拆分给处理器来执行的,从而使得与消息传递(MPA)架构相比更容易编程,在消息传递架构中,处理总是在本地发生,并且程序员负责相应地四处移动数据。大多数SMA使用由
多个互连的处理器

缓存对组成的分布式共享存储器架构,这使得缓存一致性(以及因此延迟容许度)和同步性维护非常昂贵。这甚至可能会破坏他们在通信密集型问题中的性能。
[0008]为了解决例如上述问题,引入了仿真共享存储器(ESM)或共享存储器仿真架构。它们合并有一组多线程处理器,这些处理器通过高吞吐量相互通信网络连接至公共的可统一且同步访问的共享存储器。通过叠加正在进行的存储器引用来隐藏存储系统延迟,并且建立了特殊的低成本同步机制,从而确保机器指令级别的同步性。ESM系统为用户提供了对理想的共享存储器的感知——即使实际的硬件架构包括物理分布式存储器。从理论的角度来看,这些架构试图仿真抽象的并行随机存取机(PRAM),并行随机存取机由于其简单性和表现性通常用作这样的模型,该模型用于对计算问题的内在并行性以及执行并行算法的性能和成本进行描述和分析。PRAM模型通常是指在同一时钟下工作的一组处理器以及与该组处理器连接的统一单步可访问共享存储器。
[0009]因此,ESM是解决芯片多处理器(CMP)的可编程性和性能可扩展性问题的可行技术,因为它可产生在机器指令的执行中隐含的同步性、高效的延迟隐藏以及足够的带宽来路由所有存储器引用——即使在具有大量随机和并发的访问工作负荷的情况下。同步执行被认为使编程更容易,因为程序员不需要在每次全局存储器访问后显式地同步执行线程,而是可以依靠硬件来自动处理,而例如在MPA中程序员负责显式地定义通信、同步子任务以及描述线程之间的数据和程序分区,这使得MPA难以编程。在共享存储器仿真中应用的延迟隐藏利用了高吞吐量计算方案,在该方案中,在一个线程引用全局共享存储器的同时执行其他线程。因为该吞吐量计算方案采用了从可用线程级并行性中提取的并行松弛度,所以与依靠侦听或基于目录的缓存一致性机制并因此存在有限的带宽或目录访问延时以及大量的一致性维护流量等问题的传统对称多处理器和非统一存储器访问(NUMA)系统相比,它被认为提供了增强的可扩展性。
[0010]TCF模型可以链接至ESM和实现处理器架构,即TCF感知处理器,例如TPA。为此所需的解决方案在现有技术中在高级别上进行了概述,但没有描述实现的低级别细节。
[0011]对于共享存储器延迟补偿,现有技术的特征是存储器回复等待流水线段。该解决方案具有适用于各种工作负荷的固定段长度。根据接近最差案例的情况在设计时选择段的长度。这种解决方案会减慢执行速度——尤其是在低存储器活动、分区或局部优化模式的情况下。

技术实现思路

[0012]本专利技术的一个目的是减轻与已知的现有技术有关的至少一些问题。本专利技术的目的可以通过独立权利要求的特征来实现。本专利技术的一个实施方式提供了一种用于处理TCF感知处理器的共享数据存储器访问的装置。所述装置至少包括灵活延迟处理单元,所述灵活延迟处理单元包括本地存储器和相关控制逻辑,所述本地存储器被提供用于存储共享数据存储器访问相关数据。所述装置被配置成接收包括至少一个指令的至少一个TCF,所述至少一个指令与至少一个纤程相关联,其中所述灵活延迟处理单元被配置成:确定所述至少一个指令是否需要共享数据存储器访问;如果需要共享数据存储器访问,则发送共享数据存储器访问请求;通过所述灵活延迟处理单元,基本上连续地观察是否接收到对所述共享数据存储器访问请求的回复;暂停继续执行所述指令,直至接收到回复;以及在接收到所述回
复后继续执行所述指令,使得与所述共享数据存储器访问相关联的延时通过实际所需的共享数据存储器访问延迟动态地确定。
[0013]还提供了一种根据独立权利要求14所述的方法。
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于处理TCF感知处理器的共享数据存储器访问的装置,所述装置至少包括灵活延迟处理单元(601),所述灵活延迟处理单元包括本地存储器(602)和相关控制逻辑,所述本地存储器被提供用于存储共享数据存储器访问相关数据,其中所述装置被配置成接收包括至少一个指令的至少一个TCF,所述至少一个指令与至少一个纤程相关联,其中所述灵活延迟处理单元被配置成:

确定所述至少一个指令是否需要共享数据存储器访问,

如果需要共享数据存储器访问,则发送共享数据存储器访问请求,

通过所述灵活延迟处理单元,基本上连续地观察是否接收到对所述共享数据存储器访问请求的回复,

暂停继续执行所述指令,直至接收到回复,以及

在接收到所述回复后继续执行所述指令,使得与所述共享数据存储器访问相关联的延时通过实际所需的共享数据存储器访问延迟动态地确定。2.如权利要求1所述的装置,其中利用先进先出原则实现所述共享数据存储器访问,可选地在纤程之间和/或在纤程内实现所述共享数据存储器访问。3.如权利要求2所述的装置,所述装置被配置成将关于多个指令的数据存储在所述本地存储器中,并且在接收到所述回复(如有)后继续执行每个指令,所述指令是根据考虑到接收所述指令的顺序的所述先进先出原则执行的。4.如任一前述权利要求所述的装置,其中所述装置还被配置成将关于所述至少一个指令的数据存储在所述本地存储器中,所述关于所述至少一个指令的数据包括定义所述指令的数据和/或由所述指令引用以通过共享数据存储器访问获取的数据。5.如任一前述权利要求所述的装置,其中每个时钟周期执行一次所述观察。6.如任一前述权利要求所述的装置,其中所述TCF包括多个纤程并且每个纤程包括多个指令,其中通过所述灵活延迟处理单元发送共享数据存储器访问请求,并且对于所有正在执行类似序列的纤程暂停执行指令序列,直至接收到与相应指令的所有纤程有关的所有共...

【专利技术属性】
技术研发人员:马尔蒂
申请(专利权)人:芬兰国家技术研究中心股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1