【技术实现步骤摘要】
分布式任务的异常处理方法及系统
[0001]本申请涉及计算机数据处理领域,具体的涉及一种分布式任务的异常处理方法及系统。
技术介绍
[0002]分布式计算系统可用于深度神经网络的样本训练与梯度更新。当工作节点所需计算的数据量增大,执行聚合的节点在汇集各工作节点传输的数据并进行计算时有时会出现溢出的情况。
技术实现思路
[0003]鉴于以上所述相关技术的缺点,本申请的目的在于提供一种分布式任务的异常处理方法及系统,用以克服上述相关技术中存在的分布式计算时出现溢出的技术问题。
[0004]为实现上述目的及其他相关目的,本申请公开的第一方面提供一种分布式任务的异常处理方法,包括:当接收到异常重传指令时,发送包含第一数据格式的任务参数和用于指示由参数节点执行聚合操作的标识信息的第一数据包;其中,所述异常重传指令用于指示工作节点执行数据格式转化;所述任务参数是通过执行一分布式计算任务得到的;接收包含聚合参数的第二数据包;其中,所述聚合参数用于供对应同一分布式计算任务的各工作节点进行数据处理;其中,所述聚合参数是 ...
【技术保护点】
【技术特征摘要】
1.一种分布式任务的异常处理方法,其特征在于,包括:当接收到异常重传指令时,发送包含第一数据格式的任务参数和用于指示由参数节点执行聚合操作的标识信息的第一数据包;其中,所述异常重传指令用于指示工作节点执行数据格式转化;所述任务参数是通过执行一分布式计算任务得到的;接收包含聚合参数的第二数据包;其中,所述聚合参数用于供对应同一分布式计算任务的各工作节点进行数据处理;其中,所述聚合参数是由参数节点依据所述第一数据包执行聚合操作后得到的。2.根据权利要求1所述的分布式任务的异常处理方法,其特征在于,在接收异常重传指令之前还包括:发送包含第二数据格式的任务参数和用于指示由转发节点执行聚合操作的标识信息的第一数据包。3.根据权利要求1所述的分布式任务的异常处理方法,其特征在于,所述第一数据包中还包含任务标识信息,以供执行聚合操作的转发节点或参数节点确认所述第一数据包对应的分布式计算任务。4.根据权利要求1所述的分布式任务的异常处理方法,其特征在于,所述第一数据包中还包含节点标识信息,以供执行聚合操作的转发节点或参数节点确认对应于同一分布式计算任务的工作节点。5.根据权利要求1所述的分布式任务的异常处理方法,其特征在于,还包括:在发送所述第一数据包期间执行丢包检测,以及在检测到丢包时重新发送所述第一数据包。6.根据权利要求1所述的分布式任务的异常处理方法,其特征在于,所述分布式计算任务包括利用分布式计算的方式对机器学习算法进行梯度训练的计算任务。7.一种分布式任务的异常处理系统,其特征在于,包括:发送模块,用于当接收到异常重传指令时,发送包含第一数据格式的任务参数和用于指示由参数节点执行聚合操作的标识信息的第一数据包;其中,所述异常重传指令用于指示工作节点执行数据格式转化;所述任务参数是通过执行一分布式计算任务得到的;接收模块,用于接收包含聚合参数的第二数据包;其中,所述聚合参数用于供对应同一分布式计算任务的各工作节点进行数据处理;其中,所述聚合参数是由参数节点依据所述第一数据包执行聚合操作后得到的。8.一种工作节点,其特征在于,包括:至少一个存储器,用于存储至少一个程序;至少一个处理器,与所述至少一个存储器连接,用于运行所述至少一个程序时以执行并实现如权利要求1至6任一项所述的分布式任务的异常处理方法。9.一种分布式任务的异常处理方法,其特征在于,包括:接收包含聚合参数的第二数据包;其中,所述聚合参数是转发节点通过对多个工作节点发送的包含第二数据格式的任务参数的第一数据包执行聚合操作得到的;其中,所述任务参数是工作节点通过执行一分布式计算任务而得到的;当检测到所述聚合参数溢出时,发出异常重传指令;其中,所述异常重传指令用于指示工作节点执行数据格式转化;接收工作节点基于异常重传指令重新发送的第一数据包,其中,所述重新发送的第一数据包中包...
【专利技术属性】
技术研发人员:吴文斐,刘俊林,陈奕熹,
申请(专利权)人:中关村海华信息技术前沿研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。