System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种分布式训练方法、系统及装置制造方法及图纸_技高网

一种分布式训练方法、系统及装置制造方法及图纸

技术编号:40115413 阅读:9 留言:0更新日期:2024-01-23 19:49
一种分布式训练方法、系统及装置,用于解决现有技术中交换机传输链路拥塞,导致传输数据较慢的问题。方法包括:管理节点获取网络拓扑,其中,网络拓扑包括核心交换机和计算集群中的计算节点的连通关系,随后,管理节点根据网络拓扑,确定N个计算节点之间的通信规划;其中,N个计算节点是计算集群中用于分布式训练目标模型的计算节点;通信规划包括多条组间路径,对于多条组间路径中的每条组间路径:组间路径包括N个计算节点中、属于不同分组的两个计算节点,以及用于连通两个计算节点的核心交换机,组间路径用于传输组间路径中两个计算节点之间的数据;多条组间路径分别传输的数据量符合预设条件;M和N均为大于2的整数。

【技术实现步骤摘要】

本申请涉及计算,尤其涉及一种分布式训练方法、系统及装置


技术介绍

1、深度学习(deep learning)是一类基于深层次神经网络算法的机器学习技术,深度学习主要应用于人工智能(artificial intelligence,ai)领域的感知、决策等场景,例如,图像和语音识别、自然语言翻译、计算机博弈等。

2、分布式训练指的是多个计算节点(worker)联合训练同一个模型。任两个计算节点(即一对计算节点)可通过多层交换机连通,以使得该两个计算节点之间相互传输中间数据(如权重梯度)。其中,某层交换机在向上一层交换机传输数据时,可根据负载均衡原理从上一层的多个交换机中选择一个交换机,并将数据传输给该选择出的上一层交换机。但是该上一层的交换机若接收到其下一层的多个交换机的数据,则该上一层的交换机可能存在传输链路拥塞,如此,将会导致传输数据较慢的问题。


技术实现思路

1、本申请提供一种分布式训练方法、系统及装置,用于提高数据传输速度。

2、第一方面,本申请提供一种分布式训练方法,适用于包括计算集群和核心交换机的分布式训练系统中,该方法由管理节点执行。

3、管理节点是独立于计算集群的外部节点,该外部节点与计算集群中的多个计算节点分别连接,以用于管理计算集群中的各个计算节点。在一个具体实现中,管理节点比如是计算机,或者计算机中的模块,比如插件。

4、又或者,管理节点是计算集群中的计算节点,该计算节点与计算集群中其他的多个计算节点分别连接,不仅具备管理计算集群中的该其他的多个计算节点的能力,还具备其他计算节点的计算能力。在一个具体实现中,管理节点比如是物理服务器,物理服务器中包括一个或多个计算单元(或称为处理单元),计算单元比如是图形处理器(graphicsprocessing unit,gpu)、中央处理器(central processing unit,cpu)、神经网络加速器(neural-network processing unit,npu)等。

5、又或者,管理节点中包括多个功能模块,多个功能模块中的部分功能模块部署在计算集群的计算节点中,剩余的其他功能模块部署在独立于计算集群的外部节点中。

6、分布式训练方法中包括:管理节点获取网络拓扑,其中,网络拓扑包括核心交换机和计算集群中的计算节点的连通关系,进一步的,计算集群中包括m个分组,每个分组中包括一个或多个计算节点。随后,管理节点根据网络拓扑,确定n个计算节点之间的通信规划;其中,n个计算节点是计算集群中用于分布式训练目标模型的计算节点;通信规划包括多条组间路径,对于多条组间路径中的每条组间路径:组间路径包括n个计算节点中、属于不同分组的两个计算节点,以及用于连通两个计算节点的核心交换机,组间路径用于传输组间路径中两个计算节点之间的数据;多条组间路径分别传输的数据量符合预设条件;m和n均为大于2的整数。

7、上述技术方案中,管理节点根据网络拓扑,确定n个计算节点在分布式训练的数据聚合过程中的通信规划,以实现通信规划包括的多条组间路径分别传输的数据量符合预设条件,从而避免该n个计算节点在进行数据聚合时,出现某个核心交换机在组间传输方式中需要传输较多的数据量,导致核心交换机出现传输链路拥塞的问题,如此,有助于提高数据传输速度,从而进一步提高分布式训练的速度。

8、在一种可能的实现方式中,管理节点根据网络拓扑,确定n个计算节点之间的通信规划,具体是:管理节点根据网络拓扑和通信算法,确定n个计算节点之间的通信规划;其中,通信算法用于在分布式训练中聚合n个计算节点分别执行训练得到的数据,以得到目标模型。通信算法比如是ring(环)算法、halving-doubling(减半-加倍,hd)算法、binarytree(二叉树)算法等。

9、上述技术方案中,管理节点基于不同通信算法的原理,结合网络拓扑,确定n个计算节点之间的通信规划,有助于实现n个计算节点更高效的执行分布式训练。

10、在一种可能的实现方式中,多条组间路径包括的多个核心交换机中,每个核心交换机包括一个或多个流量端口;多条组间路径分别传输的数据量符合预设条件,包括:多条组间路径包括的多个流量端口中,任两个流量端口的流量的差值小于阈值,其中,流量端口的流量与所属组间路径中两个计算节点之间传输数据的数据量关联。在一种可能的实现方式中,在每条组间路径包括多级核心交换机时,差值小于阈值的任两个流量端口所属的核心交换机属于同一级。

11、上述技术方案中,管理节点确定的通信规划用于实现多条组间路径所经过的多个核心交换机的流量端口中流量的负载均衡,从而避免某个核心交换机在数据传输时存在较为严重的流量拥堵,保证整个分布式训练中各条组间路径所传输数据的均衡。

12、在一种可能的实现方式中,对于多条组间路径中的任两条组间路径:两条组间路径分别包含有不同的核心交换机,或者,两条组间路径包含相同的核心交换机,且核心交换机在两条组间路径中的流量端口不同。如此,实现多条组间路径所经过的流量端口均不重叠,避免某个核心交换机的某个流量端口需要传输多条组间路径中的数据,进而避免出现流量端口的堵塞,有助于提高数据传输速度。

13、在一种可能的实现方式中,网络拓扑包括核心交换机、计算集群,以及接入交换机的连通关系;对于多条组间路径中的每条组间路径:组间路径中还包括两个计算节点分别对应的两个接入交换机,组间路径中每个计算节点通过计算节点对应的接入交换机与核心交换机连通。如上,提供一种计算节点与核心交换机连通的实现方式。

14、在一种可能的实现方式中,通信规划中还包括多条组内路径,每条组内路径中包括n个计算节点中、属于同一个分组的两个计算节点,以及分组对应的接入交换机,组内路径用于传输组内路径中两个计算节点之间的数据。在一种可能的实现方式中,组内路径中两个计算节点之间传输数据的数据量,大于组间路径中两个计算节点之间传输数据的数据量。

15、上述技术方案中,管理节点确定的通信规划中,不仅包括多条组间路径,还包括多条组内路径,组内路径的数据传输性能优于组间路径的数据传输性能,如此,管理节点可规划组间路径用于传输数据量较少的数据,组内路径用于传输数据量较多的数据,以实现较为高效的数据传输且避免组间路径中核心交换机端口的拥塞,提高分布式训练的速度。

16、在一种可能的实现方式中,m个分组分别对应于m个接入交换机;针对m个接入交换机中每个接入交换机:接入交换机包括k个第一端口、k个第一端口分别对应的k个第二端口;k个第一端口分别与k个核心交换机连接;k个第二端口分别与接入交换机对应的分组中计算节点的k个端口连接;k为大于2的整数。

17、如此,接入交换机不仅能够连通任一个核心交换机和该接入交换机对应分组中的任一个计算节点,还能够连通该接入交换机对应分组中的任两个计算节点,从而实现整个计算集群中任两个计算节点可以相互连通,并分布式训练目标模型。

1本文档来自技高网...

【技术保护点】

1.一种分布式训练方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述根据所述网络拓扑,确定N个计算节点之间的通信规划,包括:

3.如权利要求1或2所述的方法,其特征在于,所述多条组间路径包括的多个核心交换机中,每个核心交换机包括一个或多个流量端口;

4.如权利要求3所述的方法,其特征在于,在每条组间路径包括多级核心交换机时,所述差值小于阈值的任两个流量端口所属的核心交换机属于同一级。

5.如权利要求1-4中任一项所述的方法,其特征在于,

6.如权利要求1-5中任一项所述的方法,其特征在于,所述网络拓扑包括所述核心交换机、所述计算集群中计算节点,以及接入交换机的连通关系;

7.如权利要求6所述的方法,其特征在于,所述通信规划中还包括多条组内路径,每条组内路径中包括所述N个计算节点中、属于同一个分组的两个计算节点,以及所述分组对应的接入交换机,所述组内路径用于传输所述组内路径中两个计算节点之间的数据。

8.如权利要求7所述的方法,其特征在于,所述组内路径中两个计算节点之间传输数据的数据量,大于所述组间路径中两个计算节点之间传输数据的数据量。

9.如权利要求1-8中任一项所述的方法,其特征在于,所述M个分组分别对应于M个接入交换机;

10.如权利要求1-9中任一项所述的方法,其特征在于,所述根据所述网络拓扑,确定N个计算节点之间的通信规划,包括:

11.如权利要求10所述的方法,其特征在于,所述根据所述网络拓扑、所述计算节点总数N和所述通信算法,从所述计算集群中处于空闲状态的多个计算节点中,确定所述N个计算节点和所述N个计算节点之间的通信规划,包括:

12.如权利要求1-11中任一项所述的方法,其特征在于,所述多条组间路径中包括第一组间路径,所述第一组间路径包括第一计算节点、第二计算节点和第一核心交换机;

13.如权利要求7-12中任一项所述的方法,其特征在于,所述多条组内路径中包括第一组内路径,所述第一组内路径包括第一计算节点、第三计算节点和第一接入交换机;

14.一种分布式训练系统,其特征在于,包括:

15.如权利要求14所述的系统,其特征在于,所述管理节点在根据所述网络拓扑,确定N个计算节点之间的通信规划时,具体用于:

16.如权利要求14或15所述的系统,其特征在于,所述多条组间路径包括的多个核心交换机中,每个核心交换机包括一个或多个流量端口;

17.如权利要求14-16中任一项所述的系统,其特征在于,还包括:分别与所述M个分组对应的M个接入交换机;所述M个接入交换机中任一个接入交换机用于连通所述接入交换机对应分组中的计算节点和所述K个核心交换机;

18.如权利要求17所述的系统,其特征在于,

19.如权利要求14-18中任一项所述的系统,其特征在于,所述多条组间路径中包括第一组间路径,所述第一组间路径包括第一计算节点、第二计算节点和第一核心交换机;

20.如权利要求19所述的系统,其特征在于,所述第一组间路径中还包括所述第一节点对应的第一接入交换机,和所述第二节点对应的第二接入交换机;

21.如权利要求18-20中任一项所述的系统,其特征在于,所述多条组内路径中包括第一组内路径,所述第一组内路径包括第一计算节点、第三计算节点和第一接入交换机;

22.一种分布式训练装置,其特征在于,包括:

23.如权利要求22中所述的装置,其特征在于,所述处理模块在根据所述网络拓扑,确定N个计算节点之间的通信规划时,具体用于:

24.如权利要求22或23所述的装置,其特征在于,所述多条组间路径包括的多个核心交换机中,每个核心交换机包括一个或多个流量端口;

25.如权利要求24所述的装置,其特征在于,在每条组间路径包括多级核心交换机时,所述差值小于阈值的任两个流量端口所属的核心交换机属于同一级。

26.如权利要求22-25中任一项所述的装置,其特征在于,

27.如权利要求22-26中任一项所述的装置,其特征在于,所述网络拓扑包括所述核心交换机、所述计算集群,以及接入交换机的连通关系;

28.如权利要求27所述的装置,其特征在于,所述通信规划中还包括多条组内路径,每条组内路径中包括所述N个计算节点中、属于同一个分组的两个计算节点,以及所述分组对应的接入交换机,所述组内路径用于传输所述组内路径中两个计算节点之间的数据。

29.如权利要求28所述的装置,其特征在于,所述组内路径中两个计算节点之...

【技术特征摘要】

1.一种分布式训练方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述根据所述网络拓扑,确定n个计算节点之间的通信规划,包括:

3.如权利要求1或2所述的方法,其特征在于,所述多条组间路径包括的多个核心交换机中,每个核心交换机包括一个或多个流量端口;

4.如权利要求3所述的方法,其特征在于,在每条组间路径包括多级核心交换机时,所述差值小于阈值的任两个流量端口所属的核心交换机属于同一级。

5.如权利要求1-4中任一项所述的方法,其特征在于,

6.如权利要求1-5中任一项所述的方法,其特征在于,所述网络拓扑包括所述核心交换机、所述计算集群中计算节点,以及接入交换机的连通关系;

7.如权利要求6所述的方法,其特征在于,所述通信规划中还包括多条组内路径,每条组内路径中包括所述n个计算节点中、属于同一个分组的两个计算节点,以及所述分组对应的接入交换机,所述组内路径用于传输所述组内路径中两个计算节点之间的数据。

8.如权利要求7所述的方法,其特征在于,所述组内路径中两个计算节点之间传输数据的数据量,大于所述组间路径中两个计算节点之间传输数据的数据量。

9.如权利要求1-8中任一项所述的方法,其特征在于,所述m个分组分别对应于m个接入交换机;

10.如权利要求1-9中任一项所述的方法,其特征在于,所述根据所述网络拓扑,确定n个计算节点之间的通信规划,包括:

11.如权利要求10所述的方法,其特征在于,所述根据所述网络拓扑、所述计算节点总数n和所述通信算法,从所述计算集群中处于空闲状态的多个计算节点中,确定所述n个计算节点和所述n个计算节点之间的通信规划,包括:

12.如权利要求1-11中任一项所述的方法,其特征在于,所述多条组间路径中包括第一组间路径,所述第一组间路径包括第一计算节点、第二计算节点和第一核心交换机;

13.如权利要求7-12中任一项所述的方法,其特征在于,所述多条组内路径中包括第一组内路径,所述第一组内路径包括第一计算节点、第三计算节点和第一接入交换机;

14.一种分布式训练系统,其特征在于,包括:

15.如权利要求14所述的系统,其特征在于,所述管理节点在根据所述网络拓扑,确定n个计算节点之间的通信规划时,具体用于:

16.如权利要求14或15所述的系统,其特征在于,所述多条组间路径包括的多个核心交换机中,每个核心交换机包括一个或多个流量端口;

17.如权利要求14-16中任一项所述的系统,其特征在于,还包括:分别与所述m个分组对应的m个接入交换机;所述m个接入交换机中任一个接入交换机用于连通所述接入交换机对应分组中的计算节点和所述k个核心交换机;

18.如权利要求17所述的系统,其特征在于,

19.如权利要求14-18中任一项所述的系统,其特征在于,所述多条组间路径中包括第一组间路径,所述第一组间路径包括第一计算节点、第二计算节点和第一核心交换机;

20.如权利...

【专利技术属性】
技术研发人员:郑潇雨庞西豹练韵文李亿戴宗宏
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1