System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 故障处理方法及计算设备技术_技高网

故障处理方法及计算设备技术

技术编号:41403750 阅读:5 留言:0更新日期:2024-05-20 19:29
本申请实施例公开了一种故障处理方法及计算设备,属于计算机技术领域。可以降低了PCIE设备的故障影响操作系统正常运行的风险。该方法包括:向目标PCIE设备发送心跳检测请求;心跳检测请求用于请求目标PCIE设备读取目标PCIE设备的指定信息;指定信息是四元组信息中的一种或多种;接收由目标PCIE设备返回的请求响应;请求响应包括目标PCIE设备读取指定信息的结果;若目标PCIE设备读取指定信息的结果指示异常,确定目标PCIE设备发生故障,并将目标PCIE设备进行隔离处理。

【技术实现步骤摘要】

本申请实施例涉及计算机,尤其涉及故障处理方法及计算设备


技术介绍

1、随着快速外设组件互连标准(peripheral component interconnect express,pcie)设备在计算设备上的广泛应用,pcie链路发生故障时除了发生故障的pcie设备本身,还可能导致其他pcie设备故障。

2、当前,在pcie设备发生故障后,上报产生的下行端口限制(downstream portcontainment,dpc)中断,在计算设备接收到中断后,可以对发送中断的pcie设备进行处理,这就导致了存在对故障的pcie设备进行处理前,发生故障的pcie设备已经对系统运行造成影响的情况,进而导致系统运行失败。


技术实现思路

1、本申请实施例提供了一种故障处理方法及计算设备,提高了确定发生故障的pcie设备的及时性,从而保证了系统的正常运行。

2、第一方面,本申请提供了一种故障处理方法,该方法包括:向目标pcie设备发送心跳检测请求;心跳检测请求用于请求目标pcie设备读取目标pcie设备的指定信息;指定信息是四元组信息中的一种或多种;接收由目标pcie设备返回的请求响应;请求响应包括目标pcie设备读取指定信息的结果;若目标pcie设备读取指定信息的结果指示异常,确定目标pcie设备发生故障,并将目标pcie设备进行隔离处理。

3、可以理解的是,通过主动向目标pcie设备发送心跳检测请求的方式,使得目标pcie设备按照心跳检测请求运行读取四元组信息中的指定信息,并且将目标pcie设备的读取指定信息的结果进行上报,从而使得在读取信息指示异常的情况下,及时的确定目标pcie设备发生故障,并且保证可以对故障的目标pcie设备进行隔离处理,避免由于目标pcie设备的故障导致系统运行崩溃的问题,从而提高了系统运行的效果。

4、在一种可能的实现方式中,向目标pcie设备发送心跳检测请求之前,还包括:获取各个pcie设备的类识别标识;其中,不同类型的pcie设备对应不同的类识别标识;不同类型的pcie设备包括pcie转接器switch设备或者pcie终端ep设备;根据类识别标识,从各个pcie设备中确定目标pcie设备。

5、可以理解的是,通过查询各个pcie设备的类识别标识,可以确定各个pcie设备的类型,也就是pcie设备为pcie switch设备或者pcie ep设备,然后按照当前需要进行故障检测的pcie设备的类型需求,可以从各个pcie设备中确定目标pcie设备,以实现后续对目标pcie设备进行心跳检测的过程。

6、在一种可能的实现方式中,若目标pcie设备包括多个pcie转接器switch设备,向目标pcie设备发送心跳检测请求,包括:通过多线程并行向多个pcie switch设备发送心跳检测请求。

7、可以理解的是,若目标pcie设备包括多个pcie switch设备,可以同时对多个pcieswitch设备进行心跳检测,以实现并行确定多个pcie switch设备中产生故障的pcieswitch设备,从而提高确定pcie链路中发生故障的效率。

8、在一种可能的实现方式中,向目标pcie设备发送心跳检测请求,包括:按照指定周期向目标pcie设备发送心跳检测请求;若目标pcie设备读取指定信息的结果指示异常,确定目标pcie设备发生故障,包括:若同一目标pcie设备读取指定信息的结果连续指示异常的次数大于指定阈值,确定目标pcie设备发生故障。

9、可以理解的是,通过周期性的向目标pcie设备发送心跳检测请求,可以实现在后续可以接收到各次心跳检测请求的请求响应,若连续读取指定信息的结果指示为异常的次数超过指定阈值,则可以准确的确定目标pcie设备发生故障,提高了故障确定的准确性。

10、在一种可能的实现方式中,若目标pcie设备包括pcie switch设备,将目标pcie设备进行隔离处理,包括:将目标pcie设备以及目标pcie设备的下行端口连接的各个pcie设备进行批量隔离处理。

11、可以理解的是,由于pcie switch设备具有下行端口,并且下行端口连接有其他的pcie设备,所以在确定pcie switch设备发生故障后可以将该pcie switch设备以及该pcieswitch设备下行端口连接的各个pcie设备批量隔离,从而保证系统可以正常运行。

12、在一种可能的实现方式中,将目标pcie设备以及目标pcie设备的下行端口连接的各个pcie设备进行批量隔离处理,包括:按照对应关系,确定目标pcie设备的下行端口连接的各个pcie设备;对应关系用于指示每个pcie switch设备的下行端口分别连接的pcie设备;将目标pcie设备以及目标pcie设备的下行端口连接的各个pcie设备进行批量隔离处理。

13、可以理解的是,通过对应关系可以确定每个pcie switch设备的下行端口分别连接的pcie设备,从而实现在确定发生故障的pcie switch设备后,可以快速准确的确定下行端口连接的pcie设备,从而提高了隔离处理的效果。

14、在一种可能的实现方式中,按照对应关系,确定目标pcie设备的下行端口连接的各个pcie设备之前,还包括:确定每个pcie switch设备的下行端口;确定每个下行端口连接的pcie设备;根据每个pcie switch设备的下行端口连接的pcie设备生成对应关系;将对应关系写入内存。

15、可以理解的是,在进行心跳检测之前可以预先获取每个pcie switch设备下行端口,并确定各个下行端口连接的pcie设备,从而生成每个pcie switch设备与其下行端口连接的pcie设备之间的对应关系,并将对应关系写入内存中,以供后续在确定pcie switch设备发生故障的情况下,准确快速的按照对应关系确定除了该pcie switch设备之外的其他需要隔离处理的pcie设备。

16、在一种可能的实现方式中,若目标pcie设备还包括pcie终端ep设备;向目标pcie设备发送心跳检测请求,包括:向第一pcie ep设备发送心跳检测请求;第一pcie ep设备是除了连接在pcie switch设备的下行端口的pcie ep设备之外的其他pcie ep设备。

17、可以理解的是,除了可以向pcie switch设备发送心跳检测请求确定pcie switch设备是否存在故障之外,还可以向除了pcie switch设备下行端口连接的pcie ep设备之外的其他pcie ep设备发送心跳检测请求,从而实现对pcie链路进行故障检测的完整性,从而也可以避免重复对同一pcie设备进行故障检测的情况。

18、在一种可能的实现方式中,四元组信息包括设备身份标识、厂商身份标识、子系统识别码或者子系统厂商识别码。

19、可以理解的是,由于四元组信息是每个pcie设备用于指示身本文档来自技高网...

【技术保护点】

1.一种故障处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述向目标PCIE设备发送心跳检测请求之前,还包括:

3.根据权利要求1或2所述的方法,其特征在于,若所述目标PCIE设备包括多个PCIE转接器Switch设备,所述向目标PCIE设备发送心跳检测请求,包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,所述向目标PCIE设备发送心跳检测请求,包括:

5.根据权利要求1至4任一项所述的方法,其特征在于,若所述目标PCIE设备包括PCIESwitch设备,所述将所述目标PCIE设备进行隔离处理,包括:

6.根据权利要求5所述的方法,其特征在于,所述将所述目标PCIE设备以及所述目标PCIE设备的下行端口连接的各个PCIE设备进行批量隔离处理,包括:

7.根据权利要求6所述的方法,其特征在于,所述按照对应关系,确定所述目标PCIE设备的下行端口连接的所述各个PCIE设备之前,还包括:

8.根据权利要求1至7任一项所述的方法,其特征在于,若所述目标PCIE设备还包括PCIE终端EP设备;所述向目标PCIE设备发送心跳检测请求,包括:

9.根据权利要求1至8任一项所述的方法,其特征在于,所述四元组信息包括设备身份标识、厂商身份标识、子系统识别码或者子系统厂商识别码。

10.一种计算设备,其特征在于,所述计算设备包括:处理器和用于存储所述处理器可执行指令的存储器;所述处理器被配置为执行所述指令,使得所述计算设备执行如权利要求1-9中任一项所述的故障处理方法。

...

【技术特征摘要】

1.一种故障处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述向目标pcie设备发送心跳检测请求之前,还包括:

3.根据权利要求1或2所述的方法,其特征在于,若所述目标pcie设备包括多个pcie转接器switch设备,所述向目标pcie设备发送心跳检测请求,包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,所述向目标pcie设备发送心跳检测请求,包括:

5.根据权利要求1至4任一项所述的方法,其特征在于,若所述目标pcie设备包括pcieswitch设备,所述将所述目标pcie设备进行隔离处理,包括:

6.根据权利要求5所述的方法,其特征在于,所述将所述目标pcie设备以及所述目标pcie设备的下行...

【专利技术属性】
技术研发人员:邓奇
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1