System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 使用光网络的可重新配置的计算平台制造技术_技高网

使用光网络的可重新配置的计算平台制造技术

技术编号:40993296 阅读:8 留言:0更新日期:2024-04-18 21:34
本申请公开了使用光网络的可重新配置的计算平台。方法、系统和装置,包括用于使用光网络生成计算节点的构建块集群的装置。在一个方面,方法包括接收指定用于计算工作负载的所请求计算节点的请求数据。请求数据指定计算节点的目标n维度排列。从包括每个均包括计算节点的m维度排列的构造模集合的超级平台中进行选择,所述构建块的子集在被组合时与由请求数据指定的目标排列相匹配。所述构造块集合连接到包括一个或多个光电路交换的光网络。生成包括构建块的子集的计算节点的工作负载集群。生成包括针对工作负载集群的每个维度配置用于一个或多个光电路交换的相应路由数据。

【技术实现步骤摘要】

本公开涉及使用光网络的可重新配置的计算平台


技术介绍

1、一些计算工作负载,例如机器学习训练,需要大量的处理节点以有效地完成工作负载。处理节点可以通过互连网络彼此通信。例如,在机器学习训练中,处理节点可以彼此通信以收敛于最佳的深度学习模型。互连网络对于处理单元实现收敛的速度和效率至关重要。

2、随着机器学习和其他工作负载的大小和复杂性变化,包括多个处理节点的超级计算机的刚性结构可能会限制超级计算机的可用性、可伸缩性和性能。例如,如果具有连接处理节点的特定排列的刚性互连网络的超级计算机的某些处理节点发生故障,则超级计算机可能无法替换这些处理节点,从而导致可用性和性能降低。与不依赖故障节点的其他排列相比,某些特定排列也可能导致更高的性能。


技术实现思路

1、本说明书描述了与计算节点的可重配置超级平台(superpod)有关的技术,使用光网络从该可重配置超级平台中生成工作负载集群。

2、通常,本说明书中描述的主题的一个创新方面可以体现在以下方法中,该方法包括:接收指定用于计算工作负载的所请求计算节点的请求数据。请求数据指定所述计算节点的目标n维度排列,其中n大于或等于2。从包括每个均包括计算节点的m维度排列的构建块集合的超级平台中选择所述构建块的子集,所述构建块的子集在被组合时与由所述请求数据指定的目标n维度排列相匹配,其中m大于或等于2。所述构建块的子集连接到包括用于n维度中的每个维度的一个或多个光电路交换的光网络。生成包括所述构建块的子集的计算节点的工作负载集群。工作负载集群是专用于特定给定工作负载的计算或执行的计算节点集群。生成包括对于所述工作负载集群的每个维度,配置用于该维度的一个或多个光电路交换的相应路由数据,所述工作负载集群的每个维度的相应路由数据指定计算工作负载的数据如何沿所述工作负载集群的该维度在计算节点之间被路由。使所述工作负载集群的计算节点执行所述计算工作负载。

3、这些和其他实施方式可各自可选地包括以下特征中的一个或多个。在某些方面,所述请求数据指定不同类型的计算节点。选择所述构建块的子集包括针对由所述请求数据指定的每种类型的计算节点选择包括所指定的类型的一个或多个计算节点的构建块。

4、在一些方面,用于所述超级平台的每个维度的相应路由数据包括用于所述一个或多个光电路交换中的一个的光电路交换路由表。在一些方面,对于所述n维度中的每个维度,所述光网络包括沿着该维度在计算节点之间路由数据的所述光网络的一个或多个光电路交换。每个构建块可以包括沿着所述构建块的每个维度的计算节点的多个分段。对于每个维度的每个分段,所述光网络可以包括所述光网络的光电路交换,所述光网络的所述光电路交换在所述工作负载集群中的每个构建块的计算节点的对应分段之间路由数据。

5、在一些方面,每个构建块包括计算节点的三维环面或计算节点的网格中的一个。在一些方面,超级平台包括多个工作负载集群。每个工作负载集群可以包括所述构建块的不同子集,并且执行与每个其他工作负载集群不同的工作负载。

6、一些方面包括:接收指示所述工作负载集群的给定构建块已故障的数据,以及用可用构建块来替换所述给定构建块。用可用构建块来替换所述给定构建块可以包括更新所述光网络的一个或多个光电路交换的路由数据,以停止在所述工作负载集群的给定构建块与一个或多个其他构建块之间路由数据,以及更新所述光网络的一个或多个光电路交换的路由数据,以在所述工作负载集群的可用构建块与一个或多个其他构建块之间路由数据。

7、在一些方面,选择所述构建块的子集,所述构建块的子集在被组合时与由所述请求数据指定的目标n维度排列相匹配,包括:确定由所述请求数据指定的n维度排列需要超过所述超级平台中健康可用的第二数量的构建块的第一数量的构建块,并且响应于确定由所述请求数据指定的n维度排列需要超过所述超级平台中健康可用的第二数量的构建块的第一数量的构建块:识别比所述计算工作负载具有更低优先级并且正在由所述超级平台的其他构建块执行的一个或多个第二计算工作负载,并将所述一个或多个第二计算工作负载的一个或多个构建块重新分配给用于所述计算工作负载的工作负载集群。生成包括所述构建块的子集的计算节点的工作负载集群包括:在所述构建块的子集中包括所述一个或多个第二计算工作负载的一个或多个构建块。

8、在一些方面,生成包括所述构建块的子集的计算节点的工作负载集群包括:针对所述工作负载集群的每个维度重新配置用于该维度的一个或多个光电路交换的相应路由数据,使得所述一个或多个第二计算工作负载的一个或多个构建块中的每一个与所述工作负载集群的其他构建块而不是所述一个或多个第二计算工作负载的构建块进行通信。

9、本说明书中描述的主题可以在特定实施例中实现,以实现以下优点中的一个或多个。使用光网络为工作负载动态配置计算节点的群集导致计算节点的可用性更高,因为其他计算节点可以轻松替换已故障或脱机的计算节点。计算节点排列的灵活性导致计算节点的性能更高,并且为每个工作负载分配适当数量和优化(或改进)的计算节点排列的效率更高。利用包括多种类型的计算节点的超级平台,可以生成工作负载群集,其不仅包括适当数量的计算节点和计算节点的排列,而且还包括针对每个工作负载的适当类型的计算节点,例如,但不仅限于在数据中心或其他位置在物理上彼此靠近(例如,在同一机架中彼此直接连接和/或彼此相邻)的计算节点。相反,光网络启用了各种形状的工作负载集群,其中计算节点尽管彼此相对在任意物理位置中,但是好像它们彼此相邻一样进行操作。

10、使用光网络配置平台还为工作负载提供了故障隔离和更好的安全性。例如,一些常规的超级计算机在组成该超级计算机的各种计算机之间路由流量。如果计算机之一发生故障,则该通信路径将丢失。使用光网络,可以快速重新路由数据和/或可用计算节点可以替换已故障的计算节点。另外,与使用易受攻击的软件来管理分离相比,由光电路交换(ocs)交换机提供的工作负载之间的物理隔离(例如,不同光路的物理隔离)在同一超级平台中执行的各种工作负载之间提供了更好的安全性。

11、使用光网络连接构建块还可以减少相对于分组交换网络在构建块之间传送数据时的延迟。例如,在分组交换中,存在额外的延迟,因为分组需要由交换机接收,缓冲并在另一个端口上再次发送出去。使用ocs交换机连接构建块提供真正的端到端光路,而中间没有分组交换或缓冲。

12、下面参考附图描述前述主题的各种特征和优点。根据本文描述的主题和权利要求,其他特征和优点是显而易见的。

本文档来自技高网...

【技术保护点】

1.一种由一个或多个数据处理装置执行的方法,所述方法包括:

2.根据权利要求1所述的方法,其中,对于每个维度配置所述一个或多个光电路交换包括对于每个维度配置所述一个或多个光交换的相应路由数据,所述相应路由数据指定所述计算工作负载的数据如何沿着该维度在计算节点之间被路由。

3.根据权利要求1所述的方法,进一步包括:

4.根据权利要求1所述的方法,其中,每个构建块包括沿着所述n维度中的每个维度的计算节点的多个分段,并且所述光网络包括用于所述多个构建块的每个维度的每个分段的相应光电路交换。

5.根据权利要求1所述的方法,其中,每个构建块包括计算节点的三维环面或计算节点的网格中的一个。

6.根据权利要求1所述的方法,进一步包括:

7.根据权利要求1所述的方法,其中:

8.根据权利要求7所述的方法,进一步包括:针对由所述请求数据指定的每种类型的计算节点,确定包括所述类型的计算节点的一个或多个计算节点的构建块。

9.一种系统,包括:

10.根据权利要求9所述的系统,其中,对于每个维度配置所述一个或多个光电路交换包括对于每个维度配置所述一个或多个光交换的相应路由数据,所述相应路由数据指定所述计算工作负载的数据如何沿着该维度在计算节点之间被路由。

11.根据权利要求9所述的系统,其中,所述操作进一步包括:

12.根据权利要求9所述的系统,其中,每个构建块包括沿着所述n维度中的每个维度的计算节点的多个分段,并且所述光网络包括用于所述多个构建块的每个维度的每个分段的相应光电路交换。

13.根据权利要求9所述的系统,其中,每个构建块包括计算节点的三维环面或计算节点的网格中的一个。

14.根据权利要求9所述的系统,其中,所述操作进一步包括:

15.根据权利要求9所述的系统,其中:

16.根据权利要求15所述的系统,其中,所述操作进一步包括:针对由所述请求数据指定的每种类型的计算节点,确定包括所述类型的计算节点的一个或多个计算节点的构建块。

17.一种编码有计算机程序的非暂时性计算机存储介质,所述程序包括指令,所述指令在由一个或多个数据处理装置执行时使所述一个或多个数据处理装置执行操作,所述操作包括:

18.根据权利要求17所述的非暂时性计算机存储介质,其中,对于每个维度配置所述一个或多个光电路交换包括对于每个维度配置所述一个或多个光交换的相应路由数据,所述相应路由数据指定所述计算工作负载的数据如何沿着该维度在计算节点之间被路由。

19.根据权利要求17所述的非暂时性计算机存储介质,进一步包括:

20.根据权利要求17所述的非暂时性计算机存储介质,其中,每个构建块包括沿着所述n维度中的每个维度的计算节点的多个分段,并且所述光网络包括用于所述多个构建块的每个维度的每个分段的相应光电路交换。

...

【技术特征摘要】

1.一种由一个或多个数据处理装置执行的方法,所述方法包括:

2.根据权利要求1所述的方法,其中,对于每个维度配置所述一个或多个光电路交换包括对于每个维度配置所述一个或多个光交换的相应路由数据,所述相应路由数据指定所述计算工作负载的数据如何沿着该维度在计算节点之间被路由。

3.根据权利要求1所述的方法,进一步包括:

4.根据权利要求1所述的方法,其中,每个构建块包括沿着所述n维度中的每个维度的计算节点的多个分段,并且所述光网络包括用于所述多个构建块的每个维度的每个分段的相应光电路交换。

5.根据权利要求1所述的方法,其中,每个构建块包括计算节点的三维环面或计算节点的网格中的一个。

6.根据权利要求1所述的方法,进一步包括:

7.根据权利要求1所述的方法,其中:

8.根据权利要求7所述的方法,进一步包括:针对由所述请求数据指定的每种类型的计算节点,确定包括所述类型的计算节点的一个或多个计算节点的构建块。

9.一种系统,包括:

10.根据权利要求9所述的系统,其中,对于每个维度配置所述一个或多个光电路交换包括对于每个维度配置所述一个或多个光交换的相应路由数据,所述相应路由数据指定所述计算工作负载的数据如何沿着该维度在计算节点之间被路由。

11.根据权利要求9所述的系统,其中,所述操作进一步包括:

12.根据权利要求9所述的...

【专利技术属性】
技术研发人员:尼尚特·帕蒂尔周翔安德鲁·斯温
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1