基于参数服务器的节点处理方法、装置、设备及存储介质制造方法及图纸

技术编号:24130366 阅读:30 留言:0更新日期:2020-05-13 06:05
本发明专利技术涉及大数据技术领域,并公开了一种基于参数服务器的节点处理方法,包括:获取参数服务器的全局资源信息,以构建动态全局任务图表;基于所述动态全局任务图表,检测所述全局资源信息中是否存在失效节点;若是,则将所述失效节点对应的运算任务判定为失效任务;将所述失效任务部署到所述失效任务对应的失效节点以外的节点。本发明专利技术还公开了一种基于参数服务器的节点处理装置、设备和存储介质。本发明专利技术通过构建动态全局任务图表,使得第二运算任务相关的信息都添加到图表中,在发现存在失效节点时,为了保证任务不中断,能够及时有效的将失效任务部署到失效任务对应的失效节点以外的节点,使得失效节点以外的节点能够继续完成任务。

【技术实现步骤摘要】
基于参数服务器的节点处理方法、装置、设备及存储介质
本专利技术涉及大数据
,尤其涉及机器学习的基于参数服务器的节点处理方法、装置、设备及存储介质。
技术介绍
在云计算和数据中心环境中,节点失效是较为常见且不可避免的问题,而节点失效会造成分布式训练任务的效率降低或完全中断。因此,使系统实现针对节点失效的容错性,以保证训练效率稳定且不被中断,是在分布式机器学习方向非常有价值的研究。在现有的参数服务器架构下,容错机制只限于在整体训练任务层面容错,即在非关键节点失效的情况下,重新调整分配其他节点的任务范围。一旦遇到某个关键节点失效的情况,任务便会中断,无法在没有人工干预的情况下恢复。
技术实现思路
本专利技术的主要目的在于提出一种基于参数服务器的节点处理方法、装置、设备及存储介质,旨在解决现有技术中参数服务器在节点失效时无法有效处理的问题。为实现上述目的,本专利技术提供一种基于参数服务器的节点处理方法,所述基于参数服务器的节点处理方法包括如下步骤:获取参数服务器的全局资源信息,以构建动态全局任务图表;<本文档来自技高网...

【技术保护点】
1.一种基于参数服务器的节点处理方法,其特征在于,所述基于参数服务器的节点处理方法包括如下步骤:/n获取参数服务器的全局资源信息,以构建动态全局任务图表;/n基于所述动态全局任务图表,检测所述全局资源信息中是否存在失效节点;/n若是,则将所述失效节点对应的运算任务判定为失效任务;/n将所述失效任务部署到所述失效任务对应的失效节点以外的节点。/n

【技术特征摘要】
1.一种基于参数服务器的节点处理方法,其特征在于,所述基于参数服务器的节点处理方法包括如下步骤:
获取参数服务器的全局资源信息,以构建动态全局任务图表;
基于所述动态全局任务图表,检测所述全局资源信息中是否存在失效节点;
若是,则将所述失效节点对应的运算任务判定为失效任务;
将所述失效任务部署到所述失效任务对应的失效节点以外的节点。


2.如权利要求1所述的基于参数服务器的节点处理方法,其特征在于,所述全局资源信息包括运算任务对应的输出结果、待训练数据;所述获取参数服务器全局资源信息,以构建动态全局任务图表的步骤包括:
获取第一运算任务对应的第一输出结果和/或第二运算任务对应的待训练数据;
将所述第一输出结果和/或待训练数据输入所述第二运算任务,以供所述第二运算任务对所述第一输出结果和/或待训练数据进行运算,得到第二输出结果;
基于所述第一运算任务、第一输出结果、待训练数据、第二输出结果、所述第二运算任务及各个运算任务的当前任务状态,生成动态全局任务图表。


3.如权利要求2所述的基于参数服务器的节点处理方法,其特征在于,所述基于所述第一运算任务、第一输出结果、待训练数据、第二输出结果、所述第二运算任务及所述各个运算任务的当前任务状态,生成动态全局任务图表的步骤包括:
获取所述第一运算任务对应的任务函数及输入数据;
基于所述输入数据及任务函数,生成所述第二运算任务对应的数据依赖关系;其中,所述输入数据包括第一输出结果和/或待训练数据和/或第二输出结果;
基于所述数据依赖关系,获取各个运算任务对应的当前任务状态;
将所述第一运算任务、任务函数、输入数据、当前任务状态及所述第二运算任务,生成动态全局任务图表;
将所述动态全局任务图表存储于分布式架构中。


4.如权利要求3所述的基于参数服务器的节点处理方法,其特征在于,所述基于所述动态全局任务图表,检测所述全局资源信息中是否存在失效节点的步骤包括:
生成资源信息列表,其中,所述资源信息列表包括服务器节点信息及工作节点信息;
当第二运算任务达到部署条件时,根据所述资源信息列表进行部署调度,以将参数服务器对应的任务参数分配到服务器节点,且将工作节点对应的任务数据分配到对应的工作节点,其中,所述服务器节点与所述服务器节点信息对应,所述工作节点与所述工作节点信息对应;
实时检测所述服务器节点及工作节点中是否存在失效节点。


5.如权利要求4所述的基于参数服务器的节点处理方法,其特征在于,所述根据所述资源信息...

【专利技术属性】
技术研发人员:聂鑫陈飞韩旭
申请(专利权)人:广州文远知行科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1