分布式作业协调控制方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:19933805 阅读:47 留言:0更新日期:2018-12-29 04:24
本发明专利技术公开了分布式作业协调控制方法、装置、计算机设备及存储介质,其中方法可包括:位于参数服务器进程所在容器中的第一job_coordinator进程启动,进行自旋同步,直到作业中的所有参数服务器Pod均为运行状态,为所在容器中的参数服务器进程分配唯一编号,启动所在容器中的参数服务器进程,并控制作业返回状态;位于训练进程所在容器中的第二job_coordinator进程启动,进行自旋同步,直到作业中的所有训练进程Pod均为运行状态,为所在容器中的训练进程分配唯一编号,启动所在容器中的训练进程,建立训练进程与作业中的所有参数服务器进程的链接,并控制作业返回状态。应用本发明专利技术所述方案,能够提升资源利用率并简化实现逻辑等。

【技术实现步骤摘要】
分布式作业协调控制方法、装置、计算机设备及存储介质
本专利技术涉及计算机应用技术,特别涉及分布式作业协调控制方法、装置、计算机设备及存储介质。
技术介绍
在分布式作业如分布式机器学习作业和分布式深度学习作业中,使用的模型越来越大,相应地,数据量也在不断的增加,这样虽然提高了学习的准确性,但是也增加了训练时间,最常用的方法是使用大规模的机器集群进行并行训练。一个分布式机器学习作业或分布式深度学习作业中通常包括若干个参数服务器进程和若干个训练进程,训练进程需要和所有参数服务器进程进行通信,训练进程从参数服务器进程下载模型参数,并将训练后的模型参数更新到参数服务器进程中。传统的分布式机器学习作业和分布式深度学习作业中,通常基于信息传递接口(MPI,MessagePassingInterface)协议来实现参数服务器进程和训练进程的通信和控制,或者,利用一个单独的Master进程来协调参数服务器进程和训练进程。但是,前一种方式中,需要机器学习算法和深度学习框架本身内部依赖MPI,并在算法或框架内部实现MPI的控制逻辑,不能对作业进行有效的隔离,从而存在资源利用率不高的问题。后一种方式本文档来自技高网...

【技术保护点】
1.一种分布式作业协调控制方法,其特征在于,包括:位于参数服务器进程所在容器中的第一job_coordinator进程启动,进行自旋同步,直到作业中的所有参数服务器Pod均为运行状态,所述参数服务器Pod为参数服务器进程所在容器所在的Pod;所述第一job_coordinator进程为所在容器中的参数服务器进程分配唯一编号;所述第一job_coordinator进程启动所在容器中的参数服务器进程,并控制作业返回状态。

【技术特征摘要】
1.一种分布式作业协调控制方法,其特征在于,包括:位于参数服务器进程所在容器中的第一job_coordinator进程启动,进行自旋同步,直到作业中的所有参数服务器Pod均为运行状态,所述参数服务器Pod为参数服务器进程所在容器所在的Pod;所述第一job_coordinator进程为所在容器中的参数服务器进程分配唯一编号;所述第一job_coordinator进程启动所在容器中的参数服务器进程,并控制作业返回状态。2.根据权利要求1所述的方法,其特征在于,所述进行自旋同步包括:所述第一job_coordinator进程执行以下预定处理:获取所有参数服务器Pod的状态;若存在不为运行状态的Pod,则休眠,经过预定时长后,重复执行所述预定处理,直到所有参数服务器Pod均为运行状态。3.根据权利要求1所述的方法,其特征在于,所述第一job_coordinator进程为所在容器中的参数服务器进程分配唯一编号包括:所述第一job_coordinator进程获取所有参数服务器Pod的IP,根据获取到的IP确定出所在容器中的参数服务器进程的编号。4.根据权利要求3所述的方法,其特征在于,所述根据获取到的IP确定出所在容器中的参数服务器进程的编号包括:将获取到的所有IP按预定规则进行排序;根据所在参数服务器Pod的IP的排序位置确定出所在容器中的参数服务器进程的编号。5.根据权利要求1所述的方法,其特征在于,所述控制作业返回状态包括:所述第一job_coordinator进程获取所在容器中的参数服务器进程出现错误时返回的错误码;所述第一job_coordinator进程将所述错误码通过所在容器反馈给Kubernetes,以便所述Kubernetes控制出现错误的参数服务器进程重启。6.一种分布式作业协调控制方法,其特征在于,包括:位于训练进程所在容器中的第二job_coordinator进程启动,进行自旋同步,直到作业中的所有训练进程Pod均为运行状态,所述训练进程Pod为训练进程所在容器所在的Pod;所述第二job_coordinator进程为所在容器中的训练进程分配唯一编号;所述第二job_coordinator进程启动所在容器中的训练进程,建立所述训练进程与所述作业中的所有参数服务器进程的链接,并控制作业返回状态。7.根据权利要求6所述的方法,其特征在于,所述进行自旋同步之前,进一步包括:所述第二job_coordinator进程确定所述作业中的所有参数服务器Pod均为运行状态后,获取所有参数服务器Pod的IP,注入到环境变量中,所述参数服务器Pod为参数服务器进程所在容器所在的Pod;所述建立所述训练进程与所述作业中的所有参数服务器进程的链接包括:所述第二job_coordinator进程从环境变量中获取所有参数服务器Pod的IP,根据获取到的IP建立所述训练进程与所有参数服务器进程的socket链接。8.根据权利要求6所述的方法,其特征在于,所述进行自旋同步包括:所述第二job_coordinator进程执行以下预定处理:获取所有训练进程Pod的状态;若存在不为运行状态的Pod,则休眠,经过预定时长后,重复执行所述预定处理,直到所有训练进程Pod均为运行状态。9.根据权利要求6所述的方法,其特征在于,所述第二job_coordinator进程为所在容器中的训练进程分配唯一编号包括:所述第二job_coordinator进程获取所有训练进程Pod的IP,根据获取到的IP确定出所在容器中的训练进程的编号。10.根据权利要求9所述的方法,其特征在于,所述根据获取到的IP确定出所在容器中的训练进程的编号包括:将获取到的所有IP按预定规则进行排序;根据所在训练进程Pod的IP的排序位置确定出所在容器中的训练进程的编号。11.根据权利要求6所述的方法,其特征在于,所述控制作业返回状态包括:所述第二job_co...

【专利技术属性】
技术研发人员:夏燕明
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1