System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() GPU掉卡检测方法及装置制造方法及图纸_技高网

GPU掉卡检测方法及装置制造方法及图纸

技术编号:40080640 阅读:14 留言:0更新日期:2024-01-17 02:39
本发明专利技术涉及计算机技术领域,尤其涉及一种GPU掉卡检测方法及装置,方法包括:利用GPU查询命令,进行GPU信息查询,得到当前节点的GPU信息;利用命令执行状态返回命令,得到GPU查询命令的执行状态码;利用PCIe查询工具中的PCIe设备查询指令,查询并得到当前节点的PCIe设备信息;在GPU信息与PCIe设备信息之间存在差异,或者执行状态码为异常状态的情况下,将PCIe设备信息与预设的原始GPU信息记录进行对比,以得到GPU掉卡列表,原始GPU信息记录包括当前节点的全部GPU均为正常情况时对应的GPU信息。本方法能够实现精准度较高的GPU掉卡检测,GPU掉卡检测的及时性较强。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种gpu掉卡检测方法及装置。


技术介绍

1、深度学习模型的训练通常需要使用到gpu(graphics processing unit,图形处理单元),在模型训练任务的执行过程中,对于gpu的稳定性也具有较高的要求。例如:假设当前的模型训练任务的执行策略为master(主进程)等待所有worker(从进程)完成一轮迭代后,进行数据收集,之后再分配计算。那么,在此情形下,若在模型训练任务的执行过程中,其中一个gpu发生掉卡(掉卡指gpu出现异常状况)情况,则该掉卡的gpu将无法使用,导致模型训练进度停滞,大大降低了用户体验,增加了时间等成本。

2、目前,由于缺少对gpu的掉卡检测机制和处理机制,导致上述类似情况时常发生,不仅导致模型训练任务进度缓慢,也为用户带来了较差的体验。


技术实现思路

1、本专利技术提供一种gpu掉卡检测方法及装置,用以解决现有技术中由于缺少对gpu的掉卡检测机制,导致不能较为及时且精确地检测出gpu的掉卡情况,进而导致基于gpu进行的模型训练任务进度缓慢,用户体验较差的问题。

2、本专利技术提供一种gpu掉卡检测方法,包括:

3、利用预设的gpu查询工具中的gpu查询命令,进行gpu信息查询,得到当前节点的gpu信息;利用所述gpu查询工具中的命令执行状态返回命令,得到所述gpu查询命令的执行状态码;

4、利用预设的pcie查询工具中的pcie设备查询指令,查询并得到当前所述节点的pcie设备信息;

5、在所述gpu信息与所述pcie设备信息之间存在差异,或者所述执行状态码为异常状态的情况下,将所述pcie设备信息与预设的原始gpu信息记录进行对比,以得到gpu掉卡列表,所述原始gpu信息记录包括当前节点的全部gpu均为正常情况时对应的所述gpu信息。

6、根据本专利技术提供的一种gpu掉卡检测方法,所述gpu信息包括:gpu数量、以及每个gpu的性能数据;所述pcie设备信息包括:pcie设备数量、以及每个pcie设备的性能数据;

7、在所述gpu信息与所述pcie设备信息之间存在差异,或者所述执行状态码为异常状态的情况下,将所述pcie设备信息与预设的原始gpu信息记录进行对比,以得到gpu掉卡列表的步骤包括:

8、在所述gpu数量与所述pcie设备数量存在差异,或者所述gpu的性能数据与所述pcie设备的性能数据存在差异,又或者所述执行状态码为异常状态的情况下,将所述pcie设备信息与所述原始gpu信息记录进行对比,以得到所述gpu掉卡列表。

9、根据本专利技术提供的一种gpu掉卡检测方法,在所述gpu信息与所述pcie设备信息之间存在差异,或者所述执行状态码为异常状态的情况下,将所述pcie设备信息与预设的原始gpu信息记录进行对比,以得到gpu掉卡列表的步骤包括:

10、在所述gpu信息与所述pcie设备信息之间存在差异,或者所述执行状态码为异常状态的情况下,将所述pcie设备信息与所述原始gpu信息记录中最近一次基于所述gpu查询命令得到的全部gpu正常情况下的所述gpu信息进行对比,得到对比结果;

11、在所述对比结果为所述pcie设备信息与所述原始gpu信息记录存在差异的情况下,确定当前所述节点出现gpu掉卡;

12、在确定当前所述节点出现gpu掉卡的情况下,基于所述对比结果,得到所述gpu掉卡列表。

13、根据本专利技术提供的一种gpu掉卡检测方法,利用所述gpu查询工具中的命令执行状态返回命令,得到所述gpu查询命令的执行状态码的步骤之后,还包括:

14、将当前所述节点的所述gpu信息、以及基于当前所述命令执行状态返回命令得到的所述执行状态码保存至预设的实时gpu信息记录中。

15、根据本专利技术提供的一种gpu掉卡检测方法,利用预设的pcie查询工具中的pcie设备查询指令,查询并得到当前所述节点的pcie设备信息的步骤之后,还包括:

16、将所述pcie设备信息与所述实时gpu信息记录中最近一次记录的所述gpu信息进行对比,以确定所述gpu信息与所述pcie设备信息之间存在差异,或者所述gpu信息与所述pcie设备信息相同。

17、根据本专利技术提供的一种gpu掉卡检测方法,还包括:在所述gpu信息与所述pcie设备信息相同,且所述执行状态码为正常状态的情况下,将基于当前所述gpu查询命令得到的所述gpu信息、以及基于当前所述命令执行状态返回命令得到的所述执行状态码拷贝至所述原始gpu信息记录。

18、根据本专利技术提供的一种gpu掉卡检测方法,所述gpu掉卡列表存储于预设的存储模块;所述存储模块为包括有第一连接接口的模块,所述第一连接接口为用于与预设的gpu掉卡处理装置连接的接口,所述gpu掉卡处理装置为对所述存储模块进行gpu掉卡信息轮询,在gpu掉卡信息轮询成功的情况下,进行gpu掉卡报警与节点驱逐,并将被驱逐节点上的待执行任务的所在pod迁移至任一可用节点的装置,所述gpu掉卡信息轮询成功的情况指检测到所述gpu掉卡列表或所述gpu掉卡列表中的gpu掉卡信息;所述节点驱逐指将待驱逐节点的状态更改为不可调度状态,并将驱逐后的所述待驱逐节点确定为所述被驱逐节点,所述待驱逐节点为与轮询到的gpu掉卡信息相对应的节点。

19、根据本专利技术提供的一种gpu掉卡检测方法,所述存储模块为还包括有第二连接接口的模块,所述第二连接接口为用于与预设的gpu掉卡监控装置连接的接口,所述gpu掉卡监控装置为通过所述第二连接接口向所述存储模块查询所述gpu掉卡信息,并对所述gpu掉卡信息进行可视化展示的装置。

20、根据本专利技术提供的一种gpu掉卡检测方法,所述gpu掉卡列表包括:出现掉卡的gpu的性能数据、以及每个出现掉卡的所述gpu的掉卡场景;所述掉卡场景基于所述gpu信息、所述pcie设备信息、所述原始gpu信息记录、以及所述执行状态码得到。

21、根据本专利技术提供的一种gpu掉卡检测方法,所述掉卡场景基于预设的场景对照表、所述gpu信息、所述pcie设备信息、所述原始gpu信息记录、以及所述执行状态码得到,所述场景对照表包括所述gpu信息、所述pcie设备信息、所述原始gpu信息记录、所述执行状态码以及所述掉卡场景之间的对应关系。

22、本专利技术还提供一种gpu掉卡检测装置,包括:

23、第一查询模块,用于利用预设的gpu查询工具中的gpu查询命令,进行gpu信息查询,得到当前节点的gpu信息;利用所述gpu查询工具中的命令执行状态返回命令,得到所述gpu查询命令的执行状态码;

24、第二查询模块,用于利用预设的pcie查询工具中的pcie设备查询指令,查询并得到当前所述节点的pcie设备信息;

25、gpu掉卡检测模块,用于在所述gpu信息与所述pcie设备信息之间存在差异,或者所述执行状态本文档来自技高网...

【技术保护点】

1.一种GPU掉卡检测方法,其特征在于,包括:

2.根据权利要求1所述的GPU掉卡检测方法,其特征在于,所述GPU信息包括:GPU数量、以及每个GPU的性能数据;所述PCIe设备信息包括:PCIe设备数量、以及每个PCIe设备的性能数据;

3.根据权利要求1所述的GPU掉卡检测方法,其特征在于,在所述GPU信息与所述PCIe设备信息之间存在差异,或者所述执行状态码为异常状态的情况下,将所述PCIe设备信息与预设的原始GPU信息记录进行对比,以得到GPU掉卡列表的步骤包括:

4.根据权利要求1所述的GPU掉卡检测方法,其特征在于,利用所述GPU查询工具中的命令执行状态返回命令,得到所述GPU查询命令的执行状态码的步骤之后,还包括:

5.根据权利要求4所述的GPU掉卡检测方法,其特征在于,利用预设的PCIe查询工具中的PCIe设备查询指令,查询并得到当前所述节点的PCIe设备信息的步骤之后,还包括:

6.根据权利要求1所述的GPU掉卡检测方法,其特征在于,还包括:在所述GPU信息与所述PCIe设备信息相同,且所述执行状态码为正常状态的情况下,将基于当前所述GPU查询命令得到的所述GPU信息、以及基于当前所述命令执行状态返回命令得到的所述执行状态码拷贝至所述原始GPU信息记录。

7.根据权利要求1所述的GPU掉卡检测方法,其特征在于,所述GPU掉卡列表存储于预设的存储模块;所述存储模块为包括有第一连接接口的模块,所述第一连接接口为用于与预设的GPU掉卡处理装置连接的接口,所述GPU掉卡处理装置为对所述存储模块进行GPU掉卡信息轮询,在GPU掉卡信息轮询成功的情况下,进行GPU掉卡报警与节点驱逐,并将被驱逐节点上的待执行任务的所在pod迁移至任一可用节点的装置,所述GPU掉卡信息轮询成功的情况指检测到所述GPU掉卡列表或所述GPU掉卡列表中的GPU掉卡信息;所述节点驱逐指将待驱逐节点的状态更改为不可调度状态,并将驱逐后的所述待驱逐节点确定为所述被驱逐节点,所述待驱逐节点为与轮询到的GPU掉卡信息相对应的节点。

8.根据权利要求7所述的GPU掉卡检测方法,其特征在于,所述存储模块为还包括有第二连接接口的模块,所述第二连接接口为用于与预设的GPU掉卡监控装置连接的接口,所述GPU掉卡监控装置为通过所述第二连接接口向所述存储模块查询所述GPU掉卡信息,并对所述GPU掉卡信息进行可视化展示的装置。

9.根据权利要求1所述的GPU掉卡检测方法,其特征在于,所述GPU掉卡列表包括:出现掉卡的GPU的性能数据、以及每个出现掉卡的所述GPU的掉卡场景;所述掉卡场景基于所述GPU信息、所述PCIe设备信息、所述原始GPU信息记录、以及所述执行状态码得到。

10.根据权利要求9所述的GPU掉卡检测方法,其特征在于,所述掉卡场景基于预设的场景对照表、所述GPU信息、所述PCIe设备信息、所述原始GPU信息记录、以及所述执行状态码得到,所述场景对照表包括所述GPU信息、所述PCIe设备信息、所述原始GPU信息记录、所述执行状态码以及所述掉卡场景之间的对应关系。

11.一种GPU掉卡检测装置,其特征在于,包括:

12.一种基于如权利要求1至10中任一项所述的GPU掉卡检测方法的GPU掉卡处理方法,其特征在于,包括:

13.根据权利要求12所述的GPU掉卡处理方法,其特征在于,还包括:在GPU掉卡信息轮询成功的情况下,进行GPU掉卡报警,并向预设的GPU掉卡监控装置发送报警信息,所述GPU掉卡监控装置为用于对所述报警信息进行可视化展示的装置。

14.根据权利要求12所述的GPU掉卡处理方法,其特征在于,将所述被驱逐节点上的待执行任务的所在pod迁移至任一可用节点的步骤之后,还包括:

15.根据权利要求14所述的GPU掉卡处理方法,其特征在于,将所述诊断结果持久化记录于对应的所述节点的步骤之后,还包括:

16.一种GPU掉卡处理装置,其特征在于,用于执行如权利要求12至15中任一项所述的GPU掉卡处理方法,包括:

17.一种基于如权利要求1至10中任一项所述的GPU掉卡检测方法的GPU掉卡监控方法,其特征在于,包括:

18.一种GPU掉卡监控装置,其特征在于,用于执行如权利要求17所述的GPU掉卡监控方法,包括:

19.一种GPU掉卡管理系统,其特征在于,包括:存储模块、如权利要求11所述的GPU掉卡检测装置、如权利要求16所述的GPU掉卡处理装置、以及如权利要求18所述的GPU掉卡监控装置;

20.一种电子设备,包括存储器、处理器及...

【技术特征摘要】

1.一种gpu掉卡检测方法,其特征在于,包括:

2.根据权利要求1所述的gpu掉卡检测方法,其特征在于,所述gpu信息包括:gpu数量、以及每个gpu的性能数据;所述pcie设备信息包括:pcie设备数量、以及每个pcie设备的性能数据;

3.根据权利要求1所述的gpu掉卡检测方法,其特征在于,在所述gpu信息与所述pcie设备信息之间存在差异,或者所述执行状态码为异常状态的情况下,将所述pcie设备信息与预设的原始gpu信息记录进行对比,以得到gpu掉卡列表的步骤包括:

4.根据权利要求1所述的gpu掉卡检测方法,其特征在于,利用所述gpu查询工具中的命令执行状态返回命令,得到所述gpu查询命令的执行状态码的步骤之后,还包括:

5.根据权利要求4所述的gpu掉卡检测方法,其特征在于,利用预设的pcie查询工具中的pcie设备查询指令,查询并得到当前所述节点的pcie设备信息的步骤之后,还包括:

6.根据权利要求1所述的gpu掉卡检测方法,其特征在于,还包括:在所述gpu信息与所述pcie设备信息相同,且所述执行状态码为正常状态的情况下,将基于当前所述gpu查询命令得到的所述gpu信息、以及基于当前所述命令执行状态返回命令得到的所述执行状态码拷贝至所述原始gpu信息记录。

7.根据权利要求1所述的gpu掉卡检测方法,其特征在于,所述gpu掉卡列表存储于预设的存储模块;所述存储模块为包括有第一连接接口的模块,所述第一连接接口为用于与预设的gpu掉卡处理装置连接的接口,所述gpu掉卡处理装置为对所述存储模块进行gpu掉卡信息轮询,在gpu掉卡信息轮询成功的情况下,进行gpu掉卡报警与节点驱逐,并将被驱逐节点上的待执行任务的所在pod迁移至任一可用节点的装置,所述gpu掉卡信息轮询成功的情况指检测到所述gpu掉卡列表或所述gpu掉卡列表中的gpu掉卡信息;所述节点驱逐指将待驱逐节点的状态更改为不可调度状态,并将驱逐后的所述待驱逐节点确定为所述被驱逐节点,所述待驱逐节点为与轮询到的gpu掉卡信息相对应的节点。

8.根据权利要求7所述的gpu掉卡检测方法,其特征在于,所述存储模块为还包括有第二连接接口的模块,所述第二连接接口为用于与预设的gpu掉卡监控装置连接的接口,所述gpu掉卡监控装置为通过所述第二连接接口向所述存储模块查询所述gpu掉卡信息,并对所述gpu掉卡信息进行可视化展示的装置。

9.根据权利要求1所述的gpu掉卡检测方法,其特征在于,所述gpu掉卡列表包括:出现掉卡的gpu的性能数据、以及每个出现掉卡的所述gpu的掉卡场...

【专利技术属性】
技术研发人员:张书博
申请(专利权)人:苏州元脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1