【技术实现步骤摘要】
【国外来华专利技术】使用光网络的可重新配置的计算平台
技术介绍
一些计算工作负载,例如机器学习训练,需要大量的处理节点以有效地完成工作负载。处理节点可以通过互连网络彼此通信。例如,在机器学习训练中,处理节点可以彼此通信以收敛于最佳的深度学习模型。互连网络对于处理单元实现收敛的速度和效率至关重要。随着机器学习和其他工作负载的大小和复杂性变化,包括多个处理节点的超级计算机的刚性结构可能会限制超级计算机的可用性、可伸缩性和性能。例如,如果具有连接处理节点的特定排列的刚性互连网络的超级计算机的某些处理节点发生故障,则超级计算机可能无法替换这些处理节点,从而导致可用性和性能降低。与不依赖故障节点的其他排列相比,某些特定排列也可能导致更高的性能。
技术实现思路
本说明书描述了与计算节点的可重配置超级平台(superpod)有关的技术,使用光网络从该可重配置超级平台中生成工作负载集群。通常,本说明书中描述的主题的一个创新方面可以体现在以下方法中,该方法包括:接收指定用于计算工作负载的所请求计算节点的请求数据。请求数据指定所述计算节点的目标n维度排列,其中n大于或等于2。从包括每个均包括计算节点的m维度排列的构建块集合的超级平台中选择所述构建块的子集,所述构建块的子集在被组合时与由所述请求数据指定的目标n维度排列相匹配,其中m大于或等于2。所述构建块的子集连接到包括用于n维度中的每个维度的一个或多个光电路交换的光网络。生成包括所述构建块的子集的计算节点的工作负载集群。工作负载集群是专用于特定给定工作负载的计算或执行的计算节点集群。生成包括对于所述 ...
【技术保护点】
1.一种由一个或多个数据处理装置执行的方法,所述方法包括:/n接收指定用于计算工作负载的所请求计算节点的请求数据,所述请求数据指定所述计算节点的目标n维度排列,其中n大于或等于2;/n从包括每个均包括计算节点的m维度排列的构建块集合的超级平台中选择所述构建块的子集,所述构建块的子集在被组合时与由所述请求数据指定的所述目标n维度排列相匹配,其中,所述构建块集合连接到包括用于所述n维度中的每个维度的一个或多个光电路交换的光网络,其中m大于或等于2;/n生成包括所述构建块的子集的计算节点的工作负载集群,所述生成包括:/n对于所述工作负载集群的每个维度,配置用于该维度的所述一个或多个光电路交换的相应路由数据,所述工作负载集群的每个维度的相应路由数据指定所述计算工作负载的数据如何沿所述工作负载集群的该维度在计算节点之间被路由;以及/n使所述工作负载集群的计算节点执行所述计算工作负载。/n
【技术特征摘要】
【国外来华专利技术】20190306 US 62/814,757;20190411 US 16/381,9511.一种由一个或多个数据处理装置执行的方法,所述方法包括:
接收指定用于计算工作负载的所请求计算节点的请求数据,所述请求数据指定所述计算节点的目标n维度排列,其中n大于或等于2;
从包括每个均包括计算节点的m维度排列的构建块集合的超级平台中选择所述构建块的子集,所述构建块的子集在被组合时与由所述请求数据指定的所述目标n维度排列相匹配,其中,所述构建块集合连接到包括用于所述n维度中的每个维度的一个或多个光电路交换的光网络,其中m大于或等于2;
生成包括所述构建块的子集的计算节点的工作负载集群,所述生成包括:
对于所述工作负载集群的每个维度,配置用于该维度的所述一个或多个光电路交换的相应路由数据,所述工作负载集群的每个维度的相应路由数据指定所述计算工作负载的数据如何沿所述工作负载集群的该维度在计算节点之间被路由;以及
使所述工作负载集群的计算节点执行所述计算工作负载。
2.根据权利要求1所述的方法,其中:
所述请求数据指定不同类型的计算节点;和
选择所述构建块的子集包括针对由所述请求数据指定的每种类型的计算节点选择包括所指定的类型的一个或多个计算节点的构建块。
3.根据权利要求1所述的方法,其中,用于所述超级平台的每个维度的所述相应路由数据包括用于所述一个或多个光电路交换中的一个的光电路交换路由表。
4.根据权利要求1所述的方法,其中,对于所述n维度中的每个维度,所述光网络包括沿该维度在计算节点之间路由数据的所述光网络的一个或多个光电路交换。
5.根据权利要求4所述的方法,其中:
每个构建块包括沿所述构建块的每个维度的计算节点的多个分段;和
对于每个维度的每个分段,所述光网络包括所述光网络的光电路交换,所述光网络的所述光电路交换在所述工作负载集群中的每个构建块的计算节点的对应分段之间路由数据。
6.根据权利要求1所述的方法,其中,每个构建块包括以下中的一个:计算节点的三维环面或计算节点的网格。
7.根据权利要求1所述的方法,其中,所述超级平台包括多个工作负载集群,并且其中,每个工作负载集群包括所述构建块的不同子集,并且执行与每个其他工作负载集群不同的工作负载。
8.根据权利要求1所述的方法,还包括:
接收指示所述工作负载集群的给定构建块已故障的数据;和
用可用构建块来替换所述给定构建块。
9.根据权利要求8所述的方法,其中,用可用构建块来替换所述给定构建块包括:
更新所述光网络的一个或多个光电路交换的路由数据,以停止在所述工作负载集群的所述给定构建块与一个或多个其他构建块之间路由数据;和
更新所述光网络的一个或多个光电路交换的路由数据,以在所述工作负载集群的可用构建块与所述一个或多个其他构建块之间路由数据。
10.根据权利要求1所述的方法,其中:
选择所述构建块的子集,所述构建块的子集在被组合时与由所述请求数据指定的所述目标n维度排列相匹配,包括:
确定由所述请求数据指定的所述n维度排列需要超过所述超级平台中健康可用的第二数量的构建块的第一数量的构建块;
响应于确定由所述请求数据指定的所述n维度排列需要超过所述超级平台中健康可用的第二数量的构建块的第一数量的构建块:
识别比所述计算工作负载具有更低优先级并且正在由所述超级平台的其他构建块执行的一个或多个第二计算工作负载;和
将所述一个或多个第二计算工作负载的一个或多个构建块重新分配给用于所述计算工作负载的工作负载集群;和
生成包括所述构建块的子集的计算节点的工作负载集群包括:在所述构建块的子集中包括所述一个或多个第二计算工作负载的所述一个或多个构建块。
11.根据权利要求10所述的方法,其中,生成包括所述构建块的子...
【专利技术属性】
技术研发人员:尼尚特·帕蒂尔,周翔,安德鲁·斯温,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。