一种在网计算异常处理方法及装置制造方法及图纸

技术编号:39162836 阅读:11 留言:0更新日期:2023-10-23 15:03
本申请实施例提供了一种在网计算异常处理方法及装置,涉及计算机技术领域,该方法应用于网络设备的主用板,该方法包括:若确定第一计算模块故障,则确定第一计算模块未执行完的计算任务所需耗费的第一资源量;从除第一计算模块之外的其他计算模块中,选择剩余资源量大于第一资源量的第二计算模块;向第二计算模块发送计算任务的任务信息,并向接口板发送计算任务与第二计算模块之间的映射关系,以使得接口板接收到计算任务的计算数据后,将计算数据发送至第二计算模块,以便第二计算模块继续执行计算任务。能够避免因计算模块故障而导致任务执行失败,可以提高计算效率和节约计算资源。源。源。

【技术实现步骤摘要】
一种在网计算异常处理方法及装置


[0001]本申请涉及计算机
,特别是涉及一种在网计算异常处理方法及装置。

技术介绍

[0002]随着高性能计算(High performance computing,HPC)和AI应用的兴起,消息传递接口(Message Passing Interface,MPI)集合通信方案被广泛应用。在MPI集合通信方案中,可以利用在网计算技术将计算过程从服务器卸载到交换机上,从而提升计算效率。
[0003]服务器可以将计算任务涉及的数据封装成MPI报文,并发送到交换机,进而交换机利用自身的计算模块对接收到的数据进行计算。如果计算模块在计算过程中出现故障,则计算任务无法继续进行,会导致计算任务执行失败,后续需要重新执行该计算任务,将浪费大量的时间和计算模块的计算资源。

技术实现思路

[0004]本申请实施例的目的在于提供一种在网计算异常处理方法及装置,以避免因计算模块故障而导致任务执行失败,可以提高计算效率和节约计算资源。具体技术方案如下:第一方面,本申请实施例提供一种在网计算异常处理方法,所述方法应用于网络设备的主用板,所述网络设备还包括多个接口板,至少两个接口板包括具有计算资源的计算模块,所述方法包括:若确定第一计算模块故障,则确定所述第一计算模块未执行完的计算任务所需耗费的第一资源量;从除所述第一计算模块之外的其他计算模块中,选择剩余资源量大于所述第一资源量的第二计算模块;向所述第二计算模块发送所述计算任务的任务信息,并向所述多个接口板发送所述计算任务与所述第二计算模块之间的映射关系,以使得任一接口板接收到所述计算任务的计算数据后,将计算数据发送至所述第二计算模块,以便所述第二计算模块继续执行所述计算任务。
[0005]在一种可能的实现方式中,在所述若确定第一计算模块故障,则确定所述第一计算模块未执行完的计算任务所需耗费的第一资源量之前,所述方法还包括:周期性向所述第一计算模块发送心跳报文,并接收所述第一板回复的响应报文,所述响应报文包括所述第一计算模块的状态信息;若所述状态信息表征所述第一计算模块故障,或在连续预设数量个周期内均未接收到所述第一计算模块回复的响应报文,则确定所述第一计算模块故障。
[0006]在一种可能的实现方式中,所述从除所述第一计算模块之外的其他计算模块中,选择剩余资源量大于所述第一资源量的第二计算模块,包括:从除所述第一计算模块之外的其他计算模块中,选择剩余资源量大于所述第一资源量,且剩余资源量与所述第一资源量的差值最小的计算模块,作为所述第二计算模块。
[0007]在一种可能的实现方式中,在所述若确定第一计算模块故障,则确定所述第一计算模块未执行完的计算任务所需耗费的第一资源量之前,所述方法还包括:接收并存储在网计算管理器发送的所述计算任务的任务信息以及执行所述计算任务所需耗费的第一资源量;从各接口板包括的计算模块中,选择剩余资源量大于所述第一资源量,且剩余资源量与所述第一资源量的差值最小的计算模块,作为所述第一计算模块;向所述第一计算模块发送所述计算任务的任务信息,并向所述多个接口板发送所述计算任务与所述第一计算模块之间的映射关系。
[0008]第二方面,本申请实施例提供一种在网计算异常处理方法,所述方法应用于网络设备的第二计算模块,所述网络设备包括主用板和多个接口板,至少两个接口板包括具有计算资源的计算模块,所述方法包括:接收所述主用板发送的计算任务的任务信息,所述计算任务为第一计算模块故障前未执行完的计算任务,所述第二计算模块的剩余资源量大于所述计算任务所需耗费的第一资源量;接收任一接口板转发的所述计算任务的计算数据,基于所述计算数据继续执行所述计算任务。
[0009]在一种可能的实现方式中,所述接收任一接口板转发的所述计算任务的计算数据,基于所述计算数据继续执行所述计算任务,包括:接收所述接口板转发的针对所述计算任务的多个MPI请求报文,每个MPI请求报文包括一个批次ID以及批次ID对应的一批计算数据,所述多个MPI请求报文包括参与所述计算任务的所有进程对应的MPI请求报文;若所述多个MPI请求报文包括的批次ID相同,则基于所述多个MPI请求报文包括的计算数据进行在网计算;若所述多个MPI请求报文包括来自第一服务器的第一MPI请求报文和来自第二服务器的第二MPI请求报文,且所述第一MPI请求报文包括的第一批次ID小于所述第二MPI请求报文包括的第二批次ID,则向所述第二服务器发送第一MPI响应报文,所述第一MPI响应报文包括所述第一批次ID且报文负载部分为空;接收所述第二服务器发送的第三MPI请求报文,所述第三MPI请求报文包括所述第一批次ID以及所述第一批次ID对应的计算数据;基于所述第一MPI请求报文和所述第三MPI请求报文携带的所述第一批次ID对应的计算数据进行在网计算。
[0010]在一种可能的实现方式中,在所述基于所述第一MPI请求报文和所述第三MPI请求报文携带的所述第一批次ID对应的计算数据进行在网计算之后,所述方法还包括:向所述第一服务器和所述第二服务器反馈计算结果;接收所述第一服务器发送的第四MPI请求报文,所述第四MPI请求报文包括所述第二批次ID和所述第二批次ID对应的计算数据;基于所述第二MPI请求报文和所述第四MPI请求报文携带的所述第二批次ID对应的计算数据进行在网计算,并向所述第一服务器和所述第二服务器反馈计算结果。
[0011]第三方面,本申请实施例提供一种在网计算异常处理装置,所述装置应用于网络
设备的主用板,所述网络设备还包括多个接口板,至少两个接口板包括具有计算资源的计算模块,所述装置包括:确定模块,用于若确定第一计算模块故障,则确定所述第一计算模块未执行完的计算任务所需耗费的第一资源量;选择模块,用于从除所述第一计算模块之外的其他计算模块中,选择剩余资源量大于所述第一资源量的第二计算模块;发送模块,用于向所述第二计算模块发送所述计算任务的任务信息,并向所述多个接口板发送所述计算任务与所述第二计算模块之间的映射关系,以使得任一接口板接收到所述计算任务的计算数据后,将计算数据发送至所述第二计算模块,以便所述第二计算模块继续执行所述计算任务。
[0012]在一种可能的实现方式中,所述装置还包括接收模块;所述发送模块,还用于周期性向所述第一计算模块发送心跳报文;所述接收模块,用于接收所述第一板回复的响应报文,所述响应报文包括所述第一计算模块的状态信息;所述确定模块,还用于若所述状态信息表征所述第一计算模块故障,或在连续预设数量个周期内均未接收到所述第一计算模块回复的响应报文,则确定所述第一计算模块故障。
[0013]在一种可能的实现方式中,所述选择模块,具体用于从除所述第一计算模块之外的其他计算模块中,选择剩余资源量大于所述第一资源量,且剩余资源量与所述第一资源量的差值最小的计算模块,作为所述第二计算模块。
[0014]在一种可能的实现方式中,所述装置还包括接收模块和存储模块;所述接收模块,用于接收在网计算管理器发送的所述计算任务的任务信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在网计算异常处理方法,其特征在于,所述方法应用于网络设备的主用板,所述网络设备还包括多个接口板,至少两个接口板包括具有计算资源的计算模块,所述方法包括:若确定第一计算模块故障,则确定所述第一计算模块未执行完的计算任务所需耗费的第一资源量;从除所述第一计算模块之外的其他计算模块中,选择剩余资源量大于所述第一资源量的第二计算模块;向所述第二计算模块发送所述计算任务的任务信息,并向所述多个接口板发送所述计算任务与所述第二计算模块之间的映射关系,以使得任一接口板接收到所述计算任务的计算数据后,将计算数据发送至所述第二计算模块,以便所述第二计算模块继续执行所述计算任务。2.根据权利要求1所述的方法,其特征在于,在所述若确定第一计算模块故障,则确定所述第一计算模块未执行完的计算任务所需耗费的第一资源量之前,所述方法还包括:周期性向所述第一计算模块发送心跳报文,并接收所述第一计算模块回复的响应报文,所述响应报文包括所述第一计算模块的状态信息;若所述状态信息表征所述第一计算模块故障,或在连续预设数量个周期内均未接收到所述第一计算模块回复的响应报文,则确定所述第一计算模块故障。3.根据权利要求1或2所述的方法,其特征在于,所述从除所述第一计算模块之外的其他计算模块中,选择剩余资源量大于所述第一资源量的第二计算模块,包括:从除所述第一计算模块之外的其他计算模块中,选择剩余资源量大于所述第一资源量,且剩余资源量与所述第一资源量的差值最小的计算模块,作为所述第二计算模块。4.根据权利要求1所述的方法,其特征在于,在所述若确定第一计算模块故障,则确定所述第一计算模块未执行完的计算任务所需耗费的第一资源量之前,所述方法还包括:接收并存储在网计算管理器发送的所述计算任务的任务信息以及执行所述计算任务所需耗费的第一资源量;从各接口板包括的计算模块中,选择剩余资源量大于所述第一资源量,且剩余资源量与所述第一资源量的差值最小的计算模块,作为所述第一计算模块;向所述第一计算模块发送所述计算任务的任务信息,并向所述多个接口板发送所述计算任务与所述第一计算模块之间的映射关系。5.一种在网计算异常处理方法,其特征在于,所述方法应用于网络设备的第二计算模块,所述网络设备包括主用板和多个接口板,至少两个接口板包括具有计算资源的计算模块,所述方法包括:接收所述主用板发送的计算任务的任务信息,所述计算任务为第一计算模块故障前未执行完的计算任务,所述第二计算模块的剩余资源量大于所述计算任务所需耗费的第一资源量;接收任一接口板转发的所述计算任务的计算数据,基于所述计算数据继续执行所述计算任务。6.根据权利要求5所述的方法,其特征在于,所述接收任一接口板转发的所述计算任务的计算数据,基于所述计算数据继续执行所述计算任务,包括:
接收任一接口板转发的针对所述计算任务的多个MPI请求报文,每个MPI请求报文包括一个批次ID以及批次ID对应的一批计算数据,所述多个MPI请求报文包括参与所述计算任务的所有进程对应的MPI请求报文;若所述多个MPI请求报文包括的批次ID相同,则基于所述多个MPI请求报文包括的计算数据进行在网计算;若所述多个MPI请求报文包括来自第一服务器的第一MPI请求报文和来自第二服务器的第二MPI请求报文,且所述第一MPI请求报文包括的第一批次ID小于所述第二MPI请求报文包括的第二批次ID,则向所述第二服务器发送第一MPI响应报文,所述第一MPI响应报文包括所述第一批次ID且报文负载部分为空;接收所述第二服务器发送的第三MPI请求报文,所述第三MPI请求报文包括所述第一批次ID以及所述第一批次ID对应的计算数据;基于所述第一MPI请求报文和所述第三MPI请求报文携带的所述第一批次ID对应的计算数据进行在网计算。7.根据权利要求6所述的方法,其特征在于,在所述基于所述第一MPI请求报文和所述第三MPI请求报文携带的所述第一批次ID对应的计算数据进行在网计算之后,所述方法还包括:向所述第一服务器和所述第二服务器反馈计算结果;接收所述第一服务器发送的第四MPI请求报文,所述第四MPI请求报文包括所述第二批次ID和所述第二批次ID对应的计算数据;基于所述第二MPI请求报文和所述第四MPI请求报文携带的所述第二批次ID对应的计算数据进行在网计算,并向所述第一服务器和所述第二服务器反馈计算结果。8.一种在网计算异常处理装置,其特征在于,所述...

【专利技术属性】
技术研发人员:宛清
申请(专利权)人:新华三技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1