任务处理系统、方法及装置、电子设备和存储介质制造方法及图纸

技术编号:28701747 阅读:21 留言:0更新日期:2021-06-05 21:20
本公开涉及一种任务处理系统、方法及装置、电子设备和存储介质,所述系统包括多个中央处理器CPU以及多个图形处理器GPU,所述多个CPU中的第一CPU用于运行管理进程,所述多个CPU中的多个第二CPU用于运行多个执行进程,所述多个执行进程调用所述多个GPU执行预设任务,所述管理进程被配置为:管理所述预设任务对应的多个执行进程和/或所述多个执行进程之间的拓扑连接关系。本公开实施例可通过第一CPU上运行的管理进程来进行执行进程的调度和分配,有利于提高任务执行效率。有利于提高任务执行效率。有利于提高任务执行效率。

【技术实现步骤摘要】
任务处理系统、方法及装置、电子设备和存储介质


[0001]本公开涉及计算机
,尤其涉及一种任务处理系统、方法及装置、电子设备和存储介质。

技术介绍

[0002]图形处理器(Graphics Processing Unit,GPU)在高性能计算领域常用于并行计算。GPU使用时需要外接在电子设备的插槽(例如PCIe插槽)上,人工智能领域常常会在电子设备上外接多个GPU卡,以进行多机多卡训练等任务。多个GPU之间可进行集合通信,以便提高带宽利用率。然而,采用相关技术中的集合通信方式,通信成本受限于最慢的GPU,如果运行时某个GPU发生异常,可能导致整个系统效率降低。

技术实现思路

[0003]本公开提出了一种任务处理技术方案。
[0004]根据本公开的一方面,提供了一种任务处理系统,所述系统包括多个中央处理器CPU以及多个图形处理器GPU,所述多个CPU中的第一CPU用于运行管理进程,所述多个CPU中的多个第二CPU用于运行多个执行进程,所述多个执行进程调用所述多个GPU执行预设任务,所述管理进程被配置为:管理所述预设任务对应的多个执行进程和/或所述多个执行进程之间的拓扑连接关系。
[0005]在一些可能的实现方式中,所述管理进程管理所述预设任务对应的多个执行进程,包括:在所述多个执行进程的运行期间,调整所述预设任务对应的多个执行进程。
[0006]在一些可能的实现方式中,所述管理进程调整所述预设任务对应的多个执行进程,包括:确定所述预设任务对应的调整后的多个执行进程;基于所述调整后的多个执行进程的进程信息,确定所述调整后的多个执行进程之间的更新拓扑连接关系;将所述更新拓扑连接关系的信息发送到所述调整后的多个执行进程。
[0007]在一些可能的实现方式中,所述管理进程还被配置为:在接收到进程调整指令的情况下,确定调整所述预设任务对应的多个执行进程。
[0008]在一些可能的实现方式中,所述管理进程还被配置为:在确定所述多个执行进程中存在状态异常的执行进程的情况下,确定调整所述预设任务对应的多个执行进程。
[0009]在一些可能的实现方式中,所述管理进程还被配置为:
[0010]接收来自于集群管理系统的进程异常指令,所述进程异常指令指示所述多个执行进程中存在状态异常的执行进程。
[0011]在一些可能的实现方式中,所述管理进程还被配置为:获取所述多个执行进程的当前运行状态信息;根据所述多个执行进程的当前运行状态信息,判断所述多个执行进程中是否存在状态异常的执行进程。
[0012]在一些可能的实现方式中,所述管理进程根据所述多个执行进程的当前运行状态信息,判断所述多个执行进程中是否存在状态异常的执行进程,包括:通过比较所述多个执
行进程的当前运行状态信息,和/或,通过比较所述多个执行进程中每个执行进程的当前运行状态信息与历史运行状态信息,判断所述多个执行进程中是否存在状态异常的执行进程。
[0013]在一些可能的实现方式中,所述管理进程根据所述多个执行进程的当前运行状态信息,判断所述多个执行进程中是否存在状态异常的执行进程,包括:基于所述多个执行进程的当前运行状态信息,确定所述多个执行进程的状态统计信息;基于所述多个执行进程中每个执行进程的当前运行状态信息和所述状态统计信息之间的差异,判断所述多个执行进程中是否存在状态异常的执行进程。
[0014]在一些可能的实现方式中,所述多个CPU中的第三CPU用于运行监控进程,所述监控进程被配置为:获取系统运行参数,所述系统运行参数至少包括所述多个执行进程的运行参数;向所述管理进程和/或集群管理系统发送所述系统运行参数,其中,所述系统运行参数用于确定所述多个执行进程中是否存在状态异常的执行进程。
[0015]在一些可能的实现方式中,所述管理进程还被配置为:在接收到所述多个执行进程中第一执行进程发送的异常报告的情况下,确定与所述第一执行进程在拓扑连接关系中邻接的第二执行进程;确定从所述多个执行进程中删除所述第二执行进程。
[0016]在一些可能的实现方式中,所述预设任务包括神经网络训练任务,所述管理进程在所述多个执行进程的运行期间,调整所述预设任务对应的多个执行进程,包括:在所述多个执行进程的同一迭代结束的情况下,阻塞所述多个执行进程的执行,直到所述调整后的多个执行进程接收到所述更新拓扑连接关系的信息。
[0017]在一些可能的实现方式中,所述管理进程被配置为:将第三执行进程添加到所述预设任务对应的多个执行进程中;所述多个执行进程被配置为向所述第三执行进程发送所述多个执行进程得到的当前网络参数信息和当前网络参数更新信息。
[0018]在一些可能的实现方式中,所述管理进程还被配置为:在通过所述多个执行进程执行所述预设任务之前,获取所述预设任务对应的多个执行进程的进程信息;根据所述多个执行进程的进程信息,确定所述多个执行进程的初始拓扑连接关系。
[0019]在一些可能的实现方式中,所述进程信息包括:所述执行进程所在设备的IP地址、外围组件互连高速PCIE总线状态、英伟达互连NVLink总线状态、无限带宽Infiniband总线状态及网卡状态中的至少一种。
[0020]根据本公开的一方面,提供了一种任务处理方法,应用于电子设备的中央处理器CPU,该方法包括:在多个执行进程调用多个图形处理器GPU执行预设任务期间,调整所述多个执行进程;基于所述调整后的多个执行进程的进程信息,确定所述调整后的多个执行进程之间的更新拓扑连接关系;将所述更新拓扑连接关系的信息发送到所述调整后的多个执行进程。
[0021]在一些可能的实现方式中,所述方法还包括:在接收到进程调整指令的情况下,确定调整所述预设任务对应的多个执行进程。
[0022]在一些可能的实现方式中,所述方法还包括:在确定所述多个执行进程中存在状态异常的执行进程的情况下,确定调整所述预设任务对应的多个执行进程。
[0023]在一些可能的实现方式中,所述方法还包括:接收来自于集群管理系统的进程异常指令,所述进程异常指令指示所述多个执行进程中存在状态异常的执行进程。
[0024]在一些可能的实现方式中,所述方法还包括:获取所述多个执行进程的当前运行状态信息;根据所述多个执行进程的当前运行状态信息,判断所述多个执行进程中是否存在状态异常的执行进程。
[0025]在一些可能的实现方式中,所述根据所述多个执行进程的当前运行状态信息,判断所述多个执行进程中是否存在状态异常的执行进程,包括:通过比较所述多个执行进程的当前运行状态信息,和/或,通过比较所述多个执行进程中每个执行进程的当前运行状态信息与历史运行状态信息,判断所述多个执行进程中是否存在状态异常的执行进程。
[0026]在一些可能的实现方式中,所述根据所述多个执行进程的当前运行状态信息,判断所述多个执行进程中是否存在状态异常的执行进程,包括:基于所述多个执行进程的当前运行状态信息,确定所述多个执行进程的状态统计信息;基于所述多个执本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种任务处理系统,其特征在于,所述系统包括多个中央处理器CPU以及多个图形处理器GPU,所述多个CPU中的第一CPU用于运行管理进程,所述多个CPU中的多个第二CPU用于运行多个执行进程,所述多个执行进程调用所述多个GPU执行预设任务,所述管理进程被配置为:管理所述预设任务对应的多个执行进程和/或所述多个执行进程之间的拓扑连接关系。2.根据权利要求1所述的系统,其特征在于,所述管理进程管理所述预设任务对应的多个执行进程,包括:在所述多个执行进程的运行期间,调整所述预设任务对应的多个执行进程。3.根据权利要求2所述的系统,其特征在于,所述管理进程调整所述预设任务对应的多个执行进程,包括:确定所述预设任务对应的调整后的多个执行进程;基于所述调整后的多个执行进程的进程信息,确定所述调整后的多个执行进程之间的更新拓扑连接关系;将所述更新拓扑连接关系的信息发送到所述调整后的多个执行进程。4.根据权利要求1至3中任一项所述的系统,其特征在于,所述管理进程还被配置为:在接收到进程调整指令的情况下,确定调整所述预设任务对应的多个执行进程。5.根据权利要求1至4中任一项所述的系统,其特征在于,所述管理进程还被配置为:在确定所述多个执行进程中存在状态异常的执行进程的情况下,确定调整所述预设任务对应的多个执行进程。6.根据权利要求5所述的系...

【专利技术属性】
技术研发人员:王元波谢磊颜深根翟季冬张行程
申请(专利权)人:上海商汤智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1