当前位置: 首页 > 专利查询>辉达公司专利>正文

映射逻辑和物理处理器以及逻辑和物理存储器制造技术

技术编号:38335181 阅读:18 留言:0更新日期:2023-08-02 09:16
本公开涉及映射逻辑和物理处理器以及逻辑和物理存储器。可以在物理处理器阵列和正常工作的逻辑处理器阵列之间进行映射。此外,可以在逻辑存储器通道(与逻辑处理器相关联)和正常工作的物理存储器通道(与物理处理器相关联)之间进行映射。这些映射可以存储在一个或更多个表格中,然后表格可以用于在实现存储器访问时绕过有故障的处理器和存储器通道,同时优化局部性(例如,通过最小化存储器通道与处理器的接近度)。理器的接近度)。理器的接近度)。

【技术实现步骤摘要】
映射逻辑和物理处理器以及逻辑和物理存储器


[0001]本专利技术涉及系统配置,并且更具体地涉及将逻辑处理器映射到物理处理器以及将逻辑存储器映射到物理存储器。

技术介绍

[0002]当前的高性能计算(HPC)和图形能够利用比当前给定现代系统存储器实现所能提供的更多的存储器带宽。例如,许多HPC应用程序具有的字节与FLOP(B:F)比介于8:1和1:1之间

也就是说,它们需要从主存储器中获取1到8个字节来执行每个浮点运算。在另一个示例中,高性能共轭梯度(HPCG)基准具有大于4的B:F比。提供每B/s存储器带宽10FLOPS的现代图形处理单元(GPU)为此类应用程序带来了显著的存储器限制。
[0003]因此,需要在处理环境内改进的高性能存储器实现,以及在保持局部性的同时围绕故障处理器和故障存储器通道重新配置存储器实现的手段。
附图说明
[0004]图1示出了根据一个实施例的示例性一级数据存储子系统。
[0005]图2示出了根据一个实施例的示例性一级存储器系统。
[0006]图3示出了根据一个实施例的用于将物理处理器阵列映射到逻辑处理器阵列的方法的流程图。
[0007]图4示出了根据一个实施例的用于将逻辑存储器通道映射到正常工作的物理存储器通道的方法的流程图。
[0008]图5示出了根据一个实施例的并行处理单元。
[0009]图6A示出了根据一个实施例的、图5的并行处理单元内的通用处理集群。
[0010]图6B示出了根据一个实施例的、图5的并行处理单元的存储器分区单元。
[0011]图7A示出了根据一个实施例的、图6A的流式多处理器。
[0012]图7B是根据一个实施例的、使用图5的PPU实现的处理系统的概念图。
[0013]图7C示出了可以实现各种先前实施例的各种架构和/或功能的示例性系统。
具体实施方式
[0014]提供单级存储器系统,该系统的主存储器由位于每个流式多处理器(SM)附近的多个存储器组组成。在一个实施例中,存储器组可以堆叠在GPU芯片的顶部上。与当代GPU相比(例如,~4:1的B:F比),这种安排可以提供显著改进的B:F比以及低得多的每比特传输能量(例如,100fJ/比特对5pJ/比特)。
[0015]此外,可以在物理处理器阵列和正常工作的逻辑处理器阵列之间进行映射。此外,可以在逻辑存储器通道(与逻辑处理器相关联)和正常工作的物理存储器通道(与物理处理器相关联)之间进行映射。这些映射可以存储在一个或更多个表中,然后表可用于在实现存储器访问时绕过有故障的处理器和存储器通道,同时优化局部性(例如,通过最小化存储器
通道到处理器的距离)。
[0016]图1示出了根据一个示例性实施例的示例性一级数据存储子系统100。如图所示,处理器102、映射器104和数据存储实体106都共同位于数据存储子系统100内。例如,处理器102、映射器104和数据存储实体106可以集成也可以不集成在数据存储子系统100内。在一个实施例中,多个数据存储子系统100可以在更大的数据存储系统(例如,一级存储器系统等)内实现。
[0017]另外,在一个实施例中,处理器102可以包括流式多处理器(SM)。例如,处理器102可以包括图形处理单元(GPU)流式多处理器。在另一个实施例中,处理器102可以包括中央处理单元(CPU)。
[0018]此外,在一个实施例中,数据存储实体106可以包括用于存储数字数据的任何硬件。例如,数据存储实体可以包括单独的存储器块,例如位于处理器102顶部的堆叠配置中的单独的存储器子阵列。当然,然而,数据存储实体106可以包括用于存储数据的任何硬件,例如闪存、存储盘、固态驱动器等。在另一个实施例中,数据存储实体106可以包括GPU中的帧缓冲区组、CPU中的存储器通道等。
[0019]此外,在一个实施例中,映射器104可以包括便于从数据存储实体106检索数据的计算硬件。例如,映射器104可以从处理器102接收读取或写入请求。在另一个示例中,映射器104可以通过网络连接108从另一个数据存储子系统接收读取或写入请求。在另一个实施例中,网络连接108可以将请求直接转发到数据存储实体106,而不需要通过映射器104传递请求。在又一个实施例中,映射器104可以包括与处理器102和数据存储实体106通信的电路。这种通信可以是直接的或间接的。在另一个实施例中,映射器104可以包括专用电路。例如,映射器104可以包括在与处理器102和网络连接108相同的管芯上的专用电路。在又一个实施例中,映射器104可以包括通用处理器。
[0020]此外,在一个实施例中,映射器104可以识别在读取或写入请求内包括的虚拟地址。在另一个实施例中,映射器104可以将虚拟地址的一部分识别为段号,并且可以利用段号在查找表中定位段描述符。在又一个实施例中,使用段描述符,映射器104可以识别数据存储实体106(或另一个子系统的另一个数据存储实体)和数据存储实体106内的起始位置(例如,要执行数据读取或写入的位置)。在另一个示例中,映射器104可以识别包含数据存储实体106的数据存储子系统100,以及数据存储实体106内的起始位置。在又一个实施例中,映射器104可以利用所识别的数据存储实体和数据存储实体内的起始位置实现读取或写入请求。
[0021]此外,在一个实施例中,映射器104可以包括便于将数据存储到数据存储实体106的计算硬件。例如,给定要存储在系统内的N维阵列,映射器104可以映射N维阵列,使得N维阵列的一个N维子阵列存储在数据存储实体106内。在另一个示例中,N维阵列的N维子阵列可以存储在数据存储实体106的预定段(部分)内。
[0022]此外,在一个实施例中,映射器104可以对所存储数据(例如,N维阵列)的地址字段的位执行预定功能(例如,混洗操作)以形成用于数据的数据存储实体地址(例如,指示存储数据的数据存储实体106或包含数据存储实体106的数据存储子系统100)和数据在数据存储实体106内的偏移位置(例如,数据位于数据存储实体106内的位置)。
[0023]此外,在一个实施例中,映射器104可以存储与存储N维阵列的虚拟地址空间的预
定段(部分)相关联的段描述符(例如,在查找表中)。在另一个实施例中,段描述符可以指示如何使用虚拟地址的位来标识存储数据的数据存储实体106或包含存储数据的数据存储实体106的数据存储子系统100,以及数据所在的数据存储实体106内的偏移位置。在又一个实施例中,映射器可以存储多个段描述符,其中每个段描述符与存储在与映射器104通信的数据存储实体内的N维矩阵相关联。
[0024]此外,在一个实施例中,给定要存储在系统内的N维阵列,映射器104可以映射N维阵列,使得N维阵列的N维子阵列跨多个不同的数据存储实体存储。例如,N维阵列的N维子阵列可以跨多个不同数据存储实体以预定间隔尺寸按维交错。在另一个实施例中,N维阵列的N维子阵列可以映射到多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:在设备处:识别物理处理器阵列;以及将所述物理处理器阵列映射到逻辑处理器阵列,其中在所述映射期间故障的物理处理器被绕过。2.如权利要求1所述的方法,其中所述物理处理器阵列包括一个或更多个流式多处理器SM。3.如权利要求1所述的方法,其中所述物理处理器阵列包括一个或更多个中央处理单元CPU。4.如权利要求1所述的方法,其中响应于确定所述物理处理器阵列的行内的每个物理处理器是正常工作的,所述逻辑处理器阵列的对应行内的逻辑处理器被映射到所述物理处理器阵列的所述行内的对应物理处理器。5.如权利要求1所述的方法,其中响应于确定所述物理处理器阵列的行内的一个或更多个物理处理器有故障:所述逻辑处理器阵列的对应行内的逻辑处理器仅被映射到所述物理处理器阵列的行内的被确定为正常工作的物理处理器,以及所述逻辑处理器阵列的所述对应行内的未映射到物理处理器的逻辑处理器,被映射到所述物理处理器阵列的所述行内的可用备用正常工作的物理处理器或所述物理处理器阵列的相邻行内的正常工作的物理处理器。6.如权利要求1所述的方法,包括利用一种或更多种优化算法修改所述映射。7.如权利要求1所述的方法,包括将所述映射的结果存储在表格中。8.如权利要求1所述的方法,其中所述设备包括多个数据存储实体,每个数据存储实体包括存储器块,所述存储器块包括位于所述物理处理器阵列之一的顶部上的按层堆叠的配置中的单独存储器子阵列。9.一种方法,包括:在设备处:识别预定数量的逻辑存储通道;以及将所述预定数量的逻辑存储器通道中的每一个逻辑存储器通道映射到对应的物理存储器通道。10.如权利要求9所述的方法,其中所述物理存储器通道包括堆叠在处理器管芯上的存储器管芯上的存储器区块。11.如权利要求9所述的方法,包括:对于逻辑处理器阵列内的每个逻辑处理器:识别从所述逻辑处理器到物理处理器阵列内的对应物理处理器的映射;为所述对应物理处理器确定预定数量的正常工作的物理存储器通道;以及将所述预定数量的正常工作的物理存储器通道映射到用于所述逻辑处理器的所述预定数量的逻辑存储器通道。12.如权利要求11所述的方法,其中用于所述对应物理处理器的被确定为正常工作的物理存储器通道被映射到用于所述逻辑处理器的逻辑存储器通道,所述逻辑处理器被映射到所述对应物理处理器。
13.如权利要求11所述的方法,其中响应于确定在所述对应物理处理器上方的物理存储器位置内的正常工作的物理存储器通道的数量小于要被映射的正常工作的物理存储器通道的预定数量,相邻物理存储器位置内的额外正常工作的物理存储器通道被映射到用于所述逻辑处理器的剩余逻辑存储器通道,所述逻辑处理器映射到所述对应物理处理器。14.如权利要求13所述的方法,其中所述相邻物理存储器位置内的当前未被映射到其他逻辑存储器通道的正常工作的物理存储器通道,被映射在所述相邻物理存储器位置内的当前被映射到其他逻辑存储器通道的所述正常工作的物理存储器通道之前。15.如权利要求9所述的方法,包括将所述映射的结果存储在表格中。16.一种非暂时性计算机可读存储介质,其存储指令,当由处理器执行所述指令时,使所述处理器:识别物理处理器阵列;以及将所述物理处理器阵列映射到逻辑处理器阵列,其中在所述映射期间故障的物理处理器被绕过。17.如权利要求16所述的计算机可读存储介质,其中所述物理处理器阵列包括一个或更多个流式多处理器SM。18.如权利要求16所述的计算机可读存储介质,其中所述物理处理器阵列包括一个或更多个中央处理单元CPU。...

【专利技术属性】
技术研发人员:W
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1