数据处理方法、装置及系统制造方法及图纸

技术编号:29207594 阅读:50 留言:0更新日期:2021-07-10 00:43
本申请提供了一种数据处理方法、装置及系统,涉及分布式计算领域,控制器接收到指定节点发送的携带有用于执行指定计算任务的多个计算节点的标识的处理请求后,可以从用于连接该多个计算节点的交换设备中确定目标交换设备;并分别向该目标交换设备以及该指定节点发送用于指示该多个计算节点与该目标交换设备之间的数据转发路径的路由信息;其中,目标交换设备用于根据该路由信息对该多个计算节点上报的数据进行合并处理后发送至每个计算节点,指定节点用于将该路由信息发送至每个计算节点,每个计算节点可以根据该路由信息向目标交换设备上报数据。本申请提供的方法可以降低网络拥塞的概率,提高计算任务的执行算效率。提高计算任务的执行算效率。提高计算任务的执行算效率。

【技术实现步骤摘要】
数据处理方法、装置及系统


[0001]本申请涉及分布式计算领域,特别涉及一种数据处理方法、装置及系统。

技术介绍

[0002]分布式机器学习一般采用数据并行的方式进行模型训练。在采用该数据并行的方式进行模型训练时,各个计算节点(也称为worker)中均存储有算法模型,且每个节点可以分别获取到部分样本数据,并能对获取到的样本数据进行训练得到模型参数。各个计算节点需要将计算得到的模型参数发送至参数服务器(parameter server,ps),该参数服务器用于对各个计算节点上报的模型参数进行汇聚更新,并将更新后的模型参数再发送至各个计算节点。
[0003]相关技术中,通常采用高性能计算(High Performance Computing,HPC)数据中心网络来实现分布式机器学习。具体的,可以选取一台服务器作为参数服务器,选取另一台服务器作为主节点,并可以选取多台其他服务器作为计算节点。其中,该主节点用于向该多个计算节点下发该参数服务器的网络地址,以及驱动该多个计算节点执行分布式机器学习任务。在该HPC数据中心网络中,该参数服务器与各个计算节点之间可以通过交换设备交互数据,以实现模型参数的上报,以及更新后的模型参数的下发。
[0004]但是,在该分布式机器学习的过程,数据中心网络中的数据传输量较大,可能会出现网络拥塞,导致计算节点与参数服务器之间的数据传输时延较大,影响分布式机器学习的效率。

技术实现思路

[0005]本申请提供了一种数据处理方法、装置及系统,可以解决相关技术中的数据中心网络在实现分布式计算时,网络中数据传输量较大,可能会出现网络拥塞,影响计算效率的问题。技术方案如下:
[0006]第一方面,提供了一种数据处理方法,应用于数据中心网络的控制器,该方法可以包括:
[0007]接收指定节点发送的针对指定计算任务的处理请求,该处理请求中包括用于执行该指定计算任务的多个计算节点的标识,之后控制器可以从用于连接该多个计算节点的交换设备中确定目标交换设备,并分别向目标交换设备以及指定节点发送指定计算任务对应的路由信息,该路由信息用于指示该多个计算节点与目标交换设备之间的数据转发路径。
[0008]其中,该路由信息用于在目标交换设备对多个计算节点上报的数据进行合并处理后根据该路由信息将该合并处理后的数据发送至每个计算节点。也即是,目标交换设备可以根据该路由信息对该多个计算节点上报的数据进行合并处理后发送至每个计算节点。此外,指定节点接收到路由信息后,可以将该路由信息发送至该多个计算节点中除该指定节点之外的每个计算节点,每个计算节点可以根据该路由信息向该目标交换设备上报数据。
[0009]本申请提供的方法,由于控制器可以选取目标交换设备对多个计算节点上报的数
据进行合并处理,因此各计算节点无需再通过交换设备向参数服务器发送数据,参数服务器也无需再通过交换设备将合并处理后的结果反馈至各计算节点,有效减小了数据中心网络中的数据传输量,降低了网络拥塞的概率以及数据传输的时延,提高了计算任务的执行算效率。
[0010]可选的,该多个计算节点与该目标交换设备之间的数据转发路径上可以包括至少一个交换设备,该方法还可以包括:
[0011]将该数据转发路径上包括的至少一个交换设备中,与该多个计算节点中的至少两个计算节点连接的交换设备确定为中间交换设备;并向中间交换设备发送路由信息,该路由信息用于该中间交换设备将与其连接的至少两个计算节点上报的数据进行合并处理后根据该路由信息将合并处理后的数据发送至该目标交换设备。
[0012]各计算节点在向目标交换设备上报数据的过程中,通过中间交换设备对至少两个计算节点上报的数据进行合并处理后再发出,相比于中间交换设备直接转发数据,可以进一步减小网络中的数据传输量,进而可以进一步降低网络拥塞的概率。
[0013]可选的,控制器分别向目标交换设备以及该指定节点发送指定计算任务对应的路由信息的过程可以包括:
[0014]向目标交换设备发送包括该目标交换设备的直连设备的标识的路由信息,该目标交换设备的直连设备为计算节点或者中间交换设备;
[0015]向指定节点发送包括每个计算节点的直连设备的标识的路由信息,每个计算节点的直连设备为目标交换设备或者中间交换设备,该指定节点用于将每个计算节点的直连设备的标识发送至对应的计算节点;
[0016]相应的,控制器向中间交换设备发送路由信息的过程可以包括:
[0017]向中间交换设备发送包括该中间交换设备的直连设备的标识的路由信息,中间交换设备的直连设备为计算节点、该目标交换设备或其他中间交换设备。
[0018]其中每个设备的标识可以为设备的IP地址。
[0019]控制器向每个设备发送的路由信息可以仅包括该设备的直连设备的标识,从而可以在保证数据正常转发的基础上,进一步降低路由信息的数据量,有效提高路由信息的传输效率。
[0020]可选的,控制器从用于连接该多个计算节点的交换设备中确定目标交换设备的过程可以包括:
[0021]分别计算用于连接该多个计算节点的交换设备中,每个交换设备与各个计算节点之间的路由跳数之和;将路由跳数之和最少的交换设备确定为目标交换设备。
[0022]在本专利技术实施例中,选取路由跳数之和最少的交换设备作为目标交换设备,可以保证选取出的目标交换设备与各个计算节点之间的总路径较短,可以有效降低网络中的数据传输量较少,进而可以降低网络拥塞的概率。
[0023]作为一种可选的实现方式,控制器将路由跳数之和最少的交换设备确定为目标交换设备的过程可以包括:
[0024]当路由跳数之和最少的交换设备包括多个时,分别确定每个路由跳数之和最少的交换设备的性能参数,该性能参数包括可用带宽、吞吐量、计算负载以及被选为目标交换设备的次数中的至少一种;将多个路由跳数之和最少的交换设备中,性能参数满足预设条件
的交换设备确定为目标交换设备。
[0025]根据交换设备的性能参数选取目标交换设备,可以保证选取出的目标交换设备的性能较好,能够保证较高的计算效率。
[0026]作为另一种可选的实现方式,控制器将路由跳数之和最少的交换设备确定为目标交换设备的过程可以包括:
[0027]当路由跳数之和最少的交换设备包括多个时,分别确定每个路由跳数之和最少的交换设备与各个所述计算节点之间的路由跳数的均衡程度;将多个路由跳数之和最少的交换设备中,路由跳数的均衡程度最高的交换设备确定为目标交换设备。
[0028]根据路由跳数的均衡程度选取目标交换设备,可以保证选取出的目标交换设备与各个计算节点之间的路径长度较为均衡,进而可以保证各个计算节点上报数据时所需的时长较为接近,使得目标交换设备可以在较短的时间内接收到所有计算节点上报的数据,并进行合并处理,进一步提高了计算任务的执行效率。
[0029]可选的,控制器在计算每个交换设备与各个计算节点之间的路由跳数之和之前,还可以先检测该多个计算节点是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于数据中心网络的交换设备,所述方法包括:接收多个计算节点上报的数据;对所述多个计算节点上报的数据进行合并处理;发送合并处理后的数据。2.根据权利要求1所述的方法,其特征在于,所述多个计算节点用于分布式执行计算任务;所述对所述多个计算节点上报的数据进行合并处理,包括:按照所述计算任务对应的合并处理类型,对所述多个计算节点上报的数据进行合并处理。3.根据权利要求2所述的方法,其特征在于,所述计算任务包括为分布式AI训练任务。4.根据权利要求2或3所述的方法,其特征在于,所述合并处理类型包括:计算平均值、计算加权平均值、求和、计算最大值和计算最小值中的任一种。5.根据权利要求1

4任一所述的方法,其特征在于,所述交换设备为目标交换设备;所述发送合并处理后的数据,包括:向每个所述计算节点发送合并处理后的数据。6.根据权利要求1

5任一所述的方法,其特征在于,所述交换设备为目标交换设备,所述多个计算节点上报的数据包括至少两个所述计算节点上报的,且经中间交换设备进行合并处理后的数据。7.根据权利要求1

4任一所述的方法,其特征在于,所述交换设备为用于连接目标交换设备和至少两个所述计算节点的中间交换设备;所述对所述多个计算节点上报的数据进行合并处理,包括:对至少两个所述计算节点上报的数据进行合并处理;所述发送合并处理后的数据,包括:向所述目标交换设备发送合并处理后的数据。8.根据权利要求5所述的方法,其特征在于,所述方法还包括:接收控制器发送的计算任务对应的路由信息,所述路由信息用于指示所述多个计算节点与所述目标交换设备之间的数据转发路径,所述多个计算节点用于执行所述计算任务;所述向每个所述计算节点发送合并处理后的数据,包括:根据所述路由信息,向每个所述计算节点发送合并处理后的数据。9.根据权利要求8所述的方法,其特征在于,所述多个计算节点用于分布式执行所述计算任务,所述路由信息中还包括所述计算任务的任务标识。10.根据权利要求7所述的方法,其特征在于,所述方法还包括:接收控制器发送的计算任务对应的路由信息,所述路由信息包括目标交换设备的标识;所述向所述目标交换设备发送合并处理后的数据,包括:根据所述路由信息,向所述目标交换设备发送合并处理后的数据。11.一种数据处理装置,其特征在于,应用于数据中心网络的交换设备,所述数据处理装置包括:接收模块,用于接收多个计算节点上报的数据;
处理模块,用于对所述多个计算节点上报的数据进行合并处理;发送模块,用于发送合并处理后的数据。12.根据权利要求11所述的装置,其特征在于,所述多个计算节点用于分布式执行计算任务;所述处理模块,用于:按照所述计算任务对应的合并处理类型,对所述多个计算节点上报的数据进行合并处理。13.根据权利要求11所述的装置,其特征在于,所述计算任务包括为分布式AI训练任务。14.根据权利要求12或1...

【专利技术属性】
技术研发人员:黄伊夏寅贲刘孟竹
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1