当前位置: 首页 > 专利查询>辉达公司专利>正文

用于有效存储器屏障的推测性远程存储器操作跟踪制造技术

技术编号:39120373 阅读:13 留言:0更新日期:2023-10-23 14:45
本公开涉及用于有效存储器屏障的推测性远程存储器操作跟踪。各种实施例包括用于在多处理器计算系统中执行推测性远程存储器操作跟踪的技术。常规上,计算系统的处理器和其他组件之间的数据传输需要存储器同步操作,以在数据从目的地传输到请求源之前确定数据是有效的和一致的。随着计算系统中组件数量的增加,用于执行这些存储器同步操作的现有技术越来越低效,特别是对于远程存储器操作。所公开的技术跟踪远程存储器操作并推测性地执行这些存储器同步操作。结果,给定的存储器同步操作通常在相应的远程存储器操作到达目的地之前完成,导致复杂计算系统中远程存储器操作的效率和性能的提高。效率和性能的提高。效率和性能的提高。

【技术实现步骤摘要】
用于有效存储器屏障的推测性远程存储器操作跟踪
[0001]相关申请的交叉引用
[0002]本申请要求于2022年4月13日提交的并具有序列号63/330,723的美国临时专利申请的优先权权益,该专利申请的标题为“用于有效存储器屏障的推测性远程存储器跟踪(SPECULATIVE REMOTE MEMORY TRACKING FOR EFFICIENT MEMORY BARRIER)”。本相关申请的主题通过引用在此并入本文。


[0003]各种实施例总体上涉及计算机系统体系结构,并且更具体地,涉及用于有效存储器屏障的推测性远程存储器操作跟踪。

技术介绍

[0004]计算系统通常包括一个或更多个处理单元(诸如中央处理单元(CPU)和/或图形处理单元(GPU))以及一个或更多个存储器系统等。处理单元执行在处理单元中包括的一个或更多个计算引擎上执行的提交和启动计算任务的用户模式软件应用程序。在操作中,处理单元从一个或更多个存储器系统加载数据,对数据执行各种算术和逻辑运算,并将数据存储回一个或更多个存储器系统。
[0005]在复杂处理器(例如,CPU或GPU)中,某些任务涉及通过执行存储器操作在不同处理单元、高速缓存存储器、互连和/或类似物之间传送数据。在发出一系列存储器操作之后,处理单元可以发出存储器同步操作,例如存储器围栏或存储器屏障(membar)操作,随后是标志写入或释放操作。存储器同步操作是一种同步机制,它确保一系列存储器操作对所有参与的线程可见,其中每个线程都是在给定范围(如系统范围或处理器范围)的程序实例。随着处理器大小的增加,这种跨处理器内外线程进行同步的技术通常会导致严重的性能损失。例如,在GPU中,处理单元/核心的数量、最后一级高速缓存(LLC)切片的数量(例如,一些GPU中的L2高速缓存切片)、内部/外部互连的数量(例如,GPU

GPU链路、芯片到芯片链路等)随着每新一代的GPU而增加。结果,使用跨所有这些组件的存储器同步操作来处理存储器访问的同步的复杂性相应地增加。此外,增加系统中CPU和/或GPU的数量进一步增加了在给定系统中跨所有CPU和/或GPU同步存储器操作的复杂性。在CPU或GPU内以及在多个CPU和/或GPU之间同步存储器操作的复杂性的增加会导致存储器操作期间延迟增加,从而导致存储器性能降低。
[0006]如前面所示,本领域所需要的是用于在计算系统中执行同步存储器操作的更有效的技术。

技术实现思路

[0007]本公开的各种实施例阐述了用于在多处理器计算系统中执行推测性远程存储器操作跟踪的计算机实现的方法。该方法包括确定第一请求源已经生成存储器同步操作。该方法还包括接收响应于由第一请求源生成的多个存储器操作的多个确认。该方法还包括将
多个确认合并成经合并的确认。该方法还包括向第一请求源发送经合并的确认。
[0008]其他实施例包括但不限于实现所公开的技术的一个或更多个方面的系统、以及包括用于执行所公开的技术的一个或更多个方面的指令的一个或更多个计算机可读介质,以及用于执行所公开的技术的一个或更多个方面的方法。
[0009]所公开的技术相对于现有技术的至少一个技术优点是,利用所公开的技术,在后台推测性地执行存储器同步操作。当存储器操作的源和目的地的数量随着处理器的大小而增加时,解析存储器同步操作的时间量也会增加。通过在后台推测性地执行存储器同步操作,这些存储器同步操作通常在到达源时就已经完成了。为了管理同步,经由集中式确认跟踪引擎和/或经由多个分布式确认跟踪引擎跟踪经合并的确认导致相对于先前同步方法改进的连接性和降低的带宽要求。结果,即使处理器中请求源和/或目的地的数量很大,存储器同步操作也能快速完成。因此,存储器同步操作的性能得到了提高,即使对于大型复杂的处理器,尤其是对于远程存储器操作。这些优点代表了对现有技术方法的一项或多项技术改进。
附图说明
[0010]为了更详细地理解上述各种实施例的相关特征,可以通过参考各种实施例(其中一些已在附图中说明)对上述简要概括的本专利技术概念进行更具体的描述。但是,需要注意的是,所附的附图只说明专利技术概念的典型实施例,因此并不是以任何方式限制范围,还存在其他同样有效的实施例。
[0011]图1是被配置成用于实施各个实施例的一个或更多个方面的计算机系统的框图;
[0012]图2是根据各种实施例的包括在图1的加速器处理子系统中的并行处理单元(PPU)的框图;
[0013]图3是根据各个实施例的包括在图2的并行处理单元(PPU)中的通用处理集群(GPC)的框图;
[0014]图4是根据各种实施例的用于图1的加速器处理子系统的确认跟踪系统的框图;以及
[0015]图5是根据各种实施例的用于在具有图4的确认跟踪系统400的多处理器计算系统中执行推测性远程存储器操作跟踪的方法步骤的流程图。
具体实施方式
[0016]在以下描述中,阐述了许多具体细节以便提供对不同实施例的更彻底的理解。然而,对于本领域技术人员将显而易见的是,可以在没有这些具体细节中的一个或更多个的情况下实践本专利技术构思。
[0017]系统概述
[0018]图1为示出被配置为实现各个实施例的一个或更多个方面的计算机系统100的框图。如图所示,计算机系统100包括但不限于中央处理单元(CPU)102、系统存储器104,其经由存储器桥105和通信路径113耦连至加速器处理子系统112。存储器桥105进一步地经由通信路径106耦连至I/O(输入/输出)桥107,I/O桥107又耦连至交换机116。
[0019]在操作中,I/O桥107被配置为从输入设备108(诸如键盘或鼠标)接收用户输入信
息,并经由通信路径106和存储器桥105将输入信息转发给CPU 102进行处理。在一些示例中,输入设备108用于验证一个或更多个用户的身份,以便允许授权用户访问计算机系统100并拒绝未授权用户访问计算机系统100。交换机116被配置为在I/O桥107和计算机系统100的其他组件(如网络适配器118和各种附加卡120和121)之间提供连接。在一些示例中,网络适配器118用作主输入设备或专用输入设备以接收输入数据,以经由所公开的技术进行处理。
[0020]还如图所示,I/O桥107耦合至系统盘114,系统盘114可以被配置为存储内容、应用程序和数据,以供CPU 102和加速器处理子系统112使用。一般来说,系统盘114为应用程序和数据提供非暂时性存储器,可包括固定的或可移除的硬盘驱动器、闪存设备和CD

ROM(光盘只读存储器)、DVD

ROM(数字多功能盘

ROM)、蓝光、HD

DVD(高清DVD)或其他磁、光或固态存储设备。最后,虽然未明确示出,其他组件(诸如通用串行总线或其他端口连接、光盘驱动器、数字多功能盘驱动器、胶片录制设备等)也可以连接到I/O桥107。
[0021]在各个实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于在多处理器计算系统中执行存储器操作跟踪的计算机实现的方法,所述方法包括:接收响应于由多个请求源中包括的第一请求源所生成的第一多个存储器操作的第一多个确认;将所述第一多个确认与响应于由所述多个请求源中包括的第二请求源所生成的第二多个存储器操作的第二多个确认合并成经合并的确认;在将所述第一多个确认与所述第二多个确认合并之后,接收与所述第一多个存储器操作或第二组存储器操作中的至少一个相对应的存储器同步操作;以及响应于接收到所述存储器同步操作,向所述第一请求源或所述第二请求源中的至少一个发送所述经合并的确认。2.根据权利要求1所述的计算机实现的方法,其中所述经合并的确认包括所述第一多个确认的计数。3.根据权利要求2所述的计算机实现的方法,其中所述第一请求源包括与所述存储器同步操作相关联的第一本地计数器,并且其中所述第一请求源将所述第一本地计数器递减所述第一多个确认的所述计数。4.根据权利要求3所述的计算机实现的方法,其中所述第一请求源进一步:确定所述第一本地计数器具有零值;以及终止所述存储器同步操作。5.根据权利要求3所述的计算机实现的方法,其中所述第一请求源进一步:确定所述第一本地计数器具有等于参考计数的值;以及终止所述存储器同步操作。6.根据权利要求3所述的计算机实现的方法,其中所述第一请求源进一步:确定所述第一本地计数器的值等于存储在第二本地计数器中的值;以及终止所述存储器同步操作。7.根据权利要求1所述的计算机实现的方法,其中向所述第一请求源发送所述经合并的确认包括:经由一个或更多个交叉开关发送所述经合并的确认。8.根据权利要求1所述的计算机实现的方法,其中确定所述第一请求源已经生成存储器同步操作包括:接收通知消息,所述通知消息包括识别所述第一请求源的源标识符和基于所述第一多个存储器操作中包括的存储器操作的组标识符。9.根据权利要求1所述的计算机实现的方法,其中所述第一请求源包括高速缓存存储器的存储器切片、存储器管理单元或与直接存储器访问引擎相关联的集线器中的至少一个。10.根据权利要求1所述的计算机实现的方法,其中所述存储器同步操作的目的地包括经由通信网络连接到远程设备的集线器。11.根据权利要求10所述的计算机实现的方法,其中所述通信网络包括PCIe通信信道或处理器间通信信道中的至少一个。12.根据权利...

【专利技术属性】
技术研发人员:R
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1