System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种计算集群及计算集群的连接方法技术_技高网

一种计算集群及计算集群的连接方法技术

技术编号:40197854 阅读:10 留言:0更新日期:2024-01-27 00:01
一种计算集群,应用于集群通信场景。在该计算集群中,第一计算节点的多个计算装置连接至至少一个第一波长交叉设备,第二计算节点的多个计算装置连接至至少一个第二波长交叉设备。并且,至少一个第一波长交叉设备通过光交叉连接设备连接至至少一个第二波长交叉设备。这样,第一计算节点中的任意一个计算装置均能够通过上述的至少一个第一波长交叉设备、光交叉连接设备及至少一个第二波长交叉设备与第二计算节点中的任意一个计算装置连通。基于本方案,能够保证第一计算节点中的多个计算装置与第二计算节点中的多个计算装置通过波长交叉设备和光交叉连接设备实现全连接,进而完全避免了出现链路冲突的现象,保证了计算装置之间的通信性能。

【技术实现步骤摘要】

本申请涉及计算,尤其涉及一种计算集群及计算集群的连接方法


技术介绍

1、当前,在集群通信场景中,同一集群内的不同计算装置之间往往需要进行大量数据的交互。其中,集群通信场景例如可以包括人工智能(artificial intelligence,ai)训练场景和高性能计算(high performance computing,hpc)场景。示例性地,在ai训练场景下,随着模型的规模越来越大,分布式ai训练成为了主流趋势。在分布式ai训练中,不同的训练装置分别负责整个训练过程中的不同环节,并且通过相互通信来实现训练过程中的数据交互。由于不同的训练装置之间需要交互大量的数据,因此训练装置之间的通信成为了影响模型训练性能的重要部分。

2、目前,同一集群内的不同计算装置之间的通信依靠基于电交换机的网络拓扑来实现。其中,同一集群内的所有计算装置共用同一个网络拓扑,通常是通过随机路由的方式在网络拓扑的多条通信链路中选择用于交互数据的通信链路。在这种情况下,不同的计算装置可能会选择到相同的通信链路来交互数据,从而出现链路冲突的情况下,影响通信性能。

3、针对网络拓扑中出现的链路冲突的情况,相关技术中提出负载均衡路由、自适应路由等路由配置的方式来减少链路冲突现象的发生,但是各有弊端。然而,受限于基于电交换机的网络拓扑的特性,相关技术中所提出的路由配置方式通常只能够尽可能减少出现链路冲突的情况,无法完全避免链路冲突的产生,进而导致计算装置之间的通信性能容易受到影响。


技术实现思路

>1、本申请提供了一种计算集群,能够完全避免出现链路冲突的现象,保证计算装置之间的通信性能。

2、本申请第一方面提供一种计算集群,包括:第一计算节点和第二计算节点,第一计算节点和第二计算节点分别包括多个计算装置。

3、第一计算节点的多个计算装置连接至至少一个第一波长交叉设备,第二计算节点的多个计算装置连接至至少一个第二波长交叉设备。例如,假设第一计算节点包括n个计算装置,该n个计算装置均连接至一个第一波长交叉设备,其中n为大于1的整数。

4、并且,与第一计算节点连接的至少一个第一波长交叉设备通过光交叉连接设备连接至与第二计算节点连接的至少一个第二波长交叉设备。这样,第一计算节点中的多个计算装置中任意一个计算装置均能够通过上述的至少一个第一波长交叉设备、光交叉连接设备及至少一个第二波长交叉设备与第二计算节点中的多个计算装置中的任意一个计算装置连通。也就是说,第一计算节点中的计算装置在向第二计算节点中的计算装置发送数据时,数据依次经过第一波长交叉设备、光交叉连接设备以及第二波长交叉设备,最终到达第二计算节点中的计算装置。

5、在第一计算节点中的计算装置与第二计算节点中的计算装置进行通信的过程中,第一波长交叉设备在接收到不同计算装置所发送的数据后,采用不同波长的光信号来承载这些来源不同的数据。然后,第一波长交叉设备根据这些来源不同的数据的目的地,选择将不同波长的光信号发送至光交叉连接设备的一个或多个端口,进而由光交叉连接设备将光信号转发至第二波长交叉设备。最后,第二波长交叉设备将从光交叉连接设备所发送的光信号进行分解并将分解得到的光信号分别发送至第二计算节点中相应的计算装置。

6、得益于光信号传输的特性,同一条光纤上能够同时传输多个波长的光信号。因此,本方案中通过将不同计算装置所发送的数据通过不同波长的光信号来承载,能够使得不同计算装置所发送的数据能够通过相同的路径来发送且数据间互不干扰,保证第一计算节点中的多个计算装置与第二计算节点中的多个计算装置能够通过波长交叉设备和光交叉连接设备实现全连接,进而完全避免了出现链路冲突的现象,保证了计算装置之间的通信性能。

7、在一种可能的实现方式中,第一计算节点为第一物理设备,第一计算节点中的多个计算装置归属于所述第一物理设备,至少一个第一波长交叉设备的数量为一个。第二计算节点为第二物理设备,第二计算节点中的多个计算装置归属于第二物理设备,至少一个第二波长交叉设备的数量为一个。其中,第一物理设备和第二物理设备可以为物理服务器。

8、简单来说,第一计算节点中的多个计算装置可以是归属于一个物理服务器上,第二计算节点中的多个计算装置也是归属于一个物理服务器上。即,两个不同物理服务器上的计算装置通过一个第一波长交叉设备、光交叉连接设备以及一个第二波长交叉设备实现全连接。

9、本方案中,在小规模的计算集群中,通过波长交叉设备以及光交叉连接设备来实现不同子节点上的计算装置之间的全连接,能够避免计算装置之间出现链路冲突的现象,保证了计算装置之间的通信性能。

10、在一种可能的实现方式中,第一计算节点的多个计算装置归属于多个子节点,一个子节点对应一个波长交叉设备,第二计算节点的多个计算装置归属于多个子节点,一个子节点对应一个波长交叉设备。并且,第一计算节点和第二计算节点中的每个子节点中可以是包括一个或多个计算装置。其中,子节点可以为物理节点,具体可以为一个物理服务器。

11、本方案中,在计算节点中包括较多计算装置的情况下,可以将一个计算节点可以分为多个子节点,且各个子节点内包括多个计算装置,能够便于对大量的计算装置进行管理以及任务分配,且不影响各个计算装置之间的通信性能。

12、在一种可能的实现方式中,计算集群中的光交叉连接设备的数量为多个。第一计算节点中的多个计算装置和第二计算节点中的多个计算装置均具有编号,第一计算节点和第二计算节点中具有相同编号的计算装置通过波长交叉设备连接至同一个光交叉连接设备。

13、例如,第一计算节点中的m个计算装置所被分配的编号分别为:1、2、3…m;第二计算节点中的m个计算装置所被分配的编号也是分别为:1、2、3…m。那么,第一计算节点中和第二计算节点中编号为1的计算装置可以是接入光交叉连接设备1;第一计算节点中和第二计算节点中编号为2的计算装置可以是接入光交叉连接设备2,以此类推。

14、本方案中,通过按照相同的编号顺序对每个计算节点内的多个计算装置进行编号,进而使得不同计算节点内具有相同编号的计算装置均能够通过波长交叉设备接入同一个光交叉连接设备,从而实现每个计算节点内相同编号的计算装置之间的相互通信,满足ai训练场景的需求。

15、在一种可能的实现方式中,计算集群中的光交叉连接设备的数量为多个。第一计算节点的多个计算装置归属于多个子节点,第二计算节点的多个计算装置归属于多个子节点。其中,每个子节点具体可以为一个物理服务器。并且,第一计算节点中的多个子节点和第二计算节点中的多个子节点均具有编号。第一计算节点和第二计算节点中具有相同编号的子节点通过波长交叉设备连接至同一个光交叉连接设备。

16、本方案中,通过按照相同的编号顺序对每个计算节点内的多个物理服务器进行编号,进而使得不同计算节点内具有相同编号的物理服务器均能够通过波长交叉设备接入同一个光交叉连接设备,从而实现每个计算节点内相同编号的物理服务器之间本文档来自技高网...

【技术保护点】

1.一种计算集群,其特征在于,包括:第一计算节点和第二计算节点,所述第一计算节点和所述第二计算节点分别包括多个计算装置;

2.根据权利要求1所述的计算集群,其特征在于,所述第一计算节点为第一物理设备,所述第一计算节点中的多个计算装置归属于所述第一物理设备,所述至少一个第一波长交叉设备的数量为一个,所述第二计算节点为第二物理设备,所述第二计算节点中的多个计算装置归属于所述第二物理设备,所述至少一个第二波长交叉设备的数量为一个。

3.根据权利要求1所述的计算集群,其特征在于,所述第一计算节点的多个计算装置归属于多个子节点,一个子节点对应一个波长交叉设备,所述第二计算节点的多个计算装置归属于多个子节点,一个子节点对应一个波长交叉设备。

4.根据权利要求1至3任意一项所述的计算集群,其特征在于,所述光交叉连接设备的数量为多个,所述第一计算节点中的多个计算装置和所述第二计算节点中的多个计算装置均具有编号,所述第一计算节点和所述第二计算节点中具有相同编号的计算装置通过波长交叉设备连接至同一个光交叉连接设备;

5.根据权利要求1至4任意一项所述的计算集群,其特征在于,所述第一计算节点中的第一计算装置与所述第二计算节点中的第二计算装置连通,当所述第一计算节点中的第一计算装置需要与所述第二计算节点中的第三计算装置连通时,同时连接所述第二计算装置与所述第三计算装置的波长交叉设备将所述第一计算装置与所述第二计算装置的连接切换为所述第一计算装置与所述第三计算装置的连接。

6.根据权利要求5所述的计算集群,其特征在于,所述连接所述第二计算装置与所述第三计算装置的目标波长交叉设备将所述第一计算装置与第二计算装置的连接切换为所述第一计算装置与所述第三装置的连接包括:所述第三计算装置发送请求至所述目标波长交叉设备,所述目标波长交叉设备根据所述请求将与所述第一计算装置连接的输入端口连接到与所述第三计算装置连接的输出端口。

7.根据权利要求5所述的计算集群,其特征在于,所述第一计算节点和所述第二计算节点中的每个计算装置中包括路由表,所述路由表用于指示计算装置所连接的波长交叉设备与其他计算装置之间的连接关系;

8.根据权利要求7所述的计算集群,其特征在于,所述每个计算装置通过接收软件定义网络SDN控制器发送的路由表配置请求来生成路由表,所述SDN控制器用于在所述光交叉连接设备中配置波长交叉设备之间的连接。

9.根据权利要求1至8任意一项所述的计算集群,其特征在于,所述计算集群还包括第三计算节点,所述第一计算节点通过所述第一计算节点中的第一子节点中的计算装置与所述第二计算节点连接,所述第一计算节点通过所述第一计算节点中的第二子节点中的计算装置与所述第三计算节点连接,当所述第一子节点中的计算装置需要与所述第三计算节点中的计算装置通信时,所述第一子节点中的计算装置将数据发送至所述第二子节点中的计算装置,再由所述第二子节点中的计算装置将所述数据发送至所述第三计算节点中的计算装置。

10.根据权利要求1至9任意一项所述的计算集群,所述计算集群用于执行人工智能任务或者HPC任务。

11.一种计算集群的连接方法,其特征在于,所述计算集群包括第一计算节点和第二计算节点,所述方法包括:

12.根据权利要求11所述的方法,其特征在于,所述第一计算节点为第一物理设备,所述第一计算节点中的多个计算装置归属于所述第一物理设备,所述至少一个第一波长交叉设备的数量为一个,所述第二计算节点为第二物理设备,所述第二计算节点中的多个计算装置归属于所述第二物理设备,所述至少一个第二波长交叉设备的数量为一个。

13.根据权利要求11所述的方法,其特征在于,所述第一计算节点的多个计算装置归属于多个子节点,一个子节点对应一个波长交叉设备,所述第二计算节点的多个计算装置归属于多个子节点,一个子节点对应一个波长交叉设备。

14.根据权利要求11至13任意一项所述的方法,其特征在于,所述光交叉连接设备的数量为多个,所述第一计算节点中的多个计算装置和所述第二计算节点中的多个计算装置均具有编号;

15.根据权利要求11至14任意一项所述的方法,其特征在于,所述第一计算节点中的第一计算装置与所述第二计算节点中的第二计算装置连通,当所述第一计算节点中的第一计算装置需要与所述第二计算节点中的第三计算装置连通时,通过同时连接所述第二计算装置与所述第三计算装置的波长交叉设备将所述第一计算装置与所述第二计算装置的连接切换为所述第一计算装置与所述第三计算装置的连接。

16.根据权利要求15所述的方法,其特征在于,所述通过连接所述第二计算装置与所述第...

【技术特征摘要】

1.一种计算集群,其特征在于,包括:第一计算节点和第二计算节点,所述第一计算节点和所述第二计算节点分别包括多个计算装置;

2.根据权利要求1所述的计算集群,其特征在于,所述第一计算节点为第一物理设备,所述第一计算节点中的多个计算装置归属于所述第一物理设备,所述至少一个第一波长交叉设备的数量为一个,所述第二计算节点为第二物理设备,所述第二计算节点中的多个计算装置归属于所述第二物理设备,所述至少一个第二波长交叉设备的数量为一个。

3.根据权利要求1所述的计算集群,其特征在于,所述第一计算节点的多个计算装置归属于多个子节点,一个子节点对应一个波长交叉设备,所述第二计算节点的多个计算装置归属于多个子节点,一个子节点对应一个波长交叉设备。

4.根据权利要求1至3任意一项所述的计算集群,其特征在于,所述光交叉连接设备的数量为多个,所述第一计算节点中的多个计算装置和所述第二计算节点中的多个计算装置均具有编号,所述第一计算节点和所述第二计算节点中具有相同编号的计算装置通过波长交叉设备连接至同一个光交叉连接设备;

5.根据权利要求1至4任意一项所述的计算集群,其特征在于,所述第一计算节点中的第一计算装置与所述第二计算节点中的第二计算装置连通,当所述第一计算节点中的第一计算装置需要与所述第二计算节点中的第三计算装置连通时,同时连接所述第二计算装置与所述第三计算装置的波长交叉设备将所述第一计算装置与所述第二计算装置的连接切换为所述第一计算装置与所述第三计算装置的连接。

6.根据权利要求5所述的计算集群,其特征在于,所述连接所述第二计算装置与所述第三计算装置的目标波长交叉设备将所述第一计算装置与第二计算装置的连接切换为所述第一计算装置与所述第三装置的连接包括:所述第三计算装置发送请求至所述目标波长交叉设备,所述目标波长交叉设备根据所述请求将与所述第一计算装置连接的输入端口连接到与所述第三计算装置连接的输出端口。

7.根据权利要求5所述的计算集群,其特征在于,所述第一计算节点和所述第二计算节点中的每个计算装置中包括路由表,所述路由表用于指示计算装置所连接的波长交叉设备与其他计算装置之间的连接关系;

8.根据权利要求7所述的计算集群,其特征在于,所述每个计算装置通过接收软件定义网络sdn控制器发送的路由表配置请求来生成路由表,所述sdn控制器用于在所述光交叉连接设备中配置波长交叉设备之间的连接。

9.根据权利要求1至8任意一项所述的计算集群,其特征在于,所述计算集群还包括第三计算节点,所述第一计算节点通过所述第一计算节点中的第一子节点中的计算装置与所述第二计算节点连接,所述第一计算节点通过所述第一计算...

【专利技术属性】
技术研发人员:陈天翔凌文凯沈胜宇
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1