一种PCIE故障的处理方法和装置制造方法及图纸

技术编号:15639016 阅读:381 留言:0更新日期:2017-06-15 20:52
本申请公开了一种PCIE故障的处理方法和装置,该方法包括在内核中采集PCIE故障信息;将所述PCIE故障信息从内核传输到用户态;在用户态对收集的所述PCIE故障信息进行分析;根据分析的结果,对所述PCIE故障进行修复或隔离。该装置包括采集单元,用于在内核中采集PCIE故障信息;传输单元,用于将所述PCIE故障信息从内核传输到用户态;分析单元,用于在用户态对收集的所述PCIE故障信息进行分析;修复和隔离单元,用于根据分析的结果,对所述PCIE故障进行修复或隔离。上述方法和装置无需人工费事费力的去修复故障,能够提高故障修复的效率和质量。

【技术实现步骤摘要】
一种PCIE故障的处理方法和装置
本专利技术属于计算机应用
,特别是涉及一种PCIE故障的处理方法和装置。
技术介绍
随着计算机技术以及集成电路技术的飞速发展,不论从软件还是硬件都得到了飞速提升。由于计算机的许多外设都是PCIE(PeripheralComponentInterfaceExpress)设备,随着设备数量的不断增加,PCIE设备出现故障的概率也越来越大,给管理员带来很大的挑战,这就需要管理员经常关注PCIE设备的健康状态,即便如此,也很难及时发现故障。PCIE产生故障时,需要管理员查看大量的系统日志并分析,花费很长时间去修复出现故障的设备,而且有些服务的数据量巨大,服务器的集群也大,维护起来费时费力,而且可能严重影响服务的质量。
技术实现思路
为解决上述问题,本专利技术提供了一种PCIE故障的处理方法和装置,无需人工费事费力的去修复故障,能够提高故障修复的效率和质量。本专利技术提供的一种PCIE故障的处理方法,包括:在内核中采集PCIE故障信息;将所述PCIE故障信息从内核传输到用户态;在用户态对收集的所述PCIE故障信息进行分析;根据分析的结果,对所述PCIE故障进行修复或隔离。优选的,在上述PCIE故障的处理方法中,在所述对所述PCIE故障进行修复或隔离之后,还包括:将所述PCIE故障信息通知管理员。优选的,在上述PCIE故障的处理方法中,在所述将所述PCIE故障信息通知管理员之后,还包括:针对所述PCIE故障信息进行报警。优选的,在上述PCIE故障的处理方法中,所述在内核中采集PCIE故障信息为:向系统中打入内核补丁,修改内核代码,在内核中采集PCIE故障信息。优选的,在上述PCIE故障的处理方法中,所述将所述PCIE故障信息从内核传输到用户态为:以netlink的通信方式将所述PCIE故障信息从内核传输到用户态。本专利技术提供的一种PCIE故障的处理装置,包括:采集单元,用于在内核中采集PCIE故障信息;传输单元,用于将所述PCIE故障信息从内核传输到用户态;分析单元,用于在用户态对收集的所述PCIE故障信息进行分析;修复和隔离单元,用于根据分析的结果,对所述PCIE故障进行修复或隔离。优选的,在上述PCIE故障的处理装置中,还包括:通知单元,用于将所述PCIE故障信息通知管理员。优选的,在上述PCIE故障的处理装置中,还包括:报警单元,用于针对所述PCIE故障信息进行报警。优选的,在上述PCIE故障的处理装置中,所述采集单元具体用于向系统中打入内核补丁,修改内核代码,在内核中采集PCIE故障信息。优选的,在上述PCIE故障的处理装置中,所述传输单元具体用于以netlink的通信方式将所述PCIE故障信息从内核传输到用户态。通过上述描述可知,本专利技术提供的上述PCIE故障的处理方法和装置,由于该方法包括在内核中采集PCIE故障信息;将所述PCIE故障信息从内核传输到用户态;在用户态对收集的所述PCIE故障信息进行分析;根据分析的结果,对所述PCIE故障进行修复或隔离,因此无需人工费事费力的去修复故障,能够提高故障修复的效率和质量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例提供的第一种PCIE故障的处理方法的示意图;图2为本申请实施例提供的第一种PCIE故障的处理装置的示意图;图3为本申请实施例提供的第四种PCIE故障的处理装置的示意图。具体实施方式本专利技术的核心思想在于提供一种PCIE故障的处理方法和装置,无需人工费事费力的去修复故障,能够提高故障修复的效率和质量。下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请实施例提供的第一种PCIE故障的处理方法如图1所示,图1为本申请实施例提供的第一种PCIE故障的处理方法的示意图,该方法包括如下步骤:S1:在内核中采集PCIE故障信息;需要说明的是,可以在计算机的操作系统内核中,利用KPatch工具,打入故障补丁,用来收集故障信息,其中故障信息可以包括但不限于故障发生的位置以及故障原因,并将其进行封装和传输。另外,可以在操作系统运行的过程中打入补丁模块,无需去再编译内核,而通常所说的补丁,是在编译内核的时候将补丁打到内核源码里面,然后编译,具体的,可以通过/proc文件、直接在kernel里面修改代码,这样也可以实现故障信息的采集,此处并不限制具体的实现方式。S2:将所述PCIE故障信息从内核传输到用户态;需要说明的是,由于收集故障信息的位置在内核,而后续的处理过程发生在用户态,因此需要将PCIE故障信息从内核传输到用户态,而具体的传输方式包括但不限于利用netlink通道。S3:在用户态对收集的所述PCIE故障信息进行分析;具体的,可以对所述PCIE故障信息进行分类统计,得到分析的结果。S4:根据分析的结果,对所述PCIE故障进行修复或隔离。需要说明的是,在该步骤中,分析完成后,就可以尝试自动修复故障,若修复不成功,如内存错误,就可以将故障的内存做隔离,避免故障内存再次被使用导致系统不稳定,避免该故障对系统或者关键服务造成严重的影响,产生严重的后果,这种方式能够弥补人为监控PCIE设备健康状态、手动管理故障及分析故障产生原因的效率低下和不能及时有效处理而导致机器不能稳定运行的不足。通过上述描述可知,本申请实施例提供的上述第一种PCIE故障的处理方法包括在内核中采集PCIE故障信息;将所述PCIE故障信息从内核传输到用户态;在用户态对收集的所述PCIE故障信息进行分析;根据分析的结果,对所述PCIE故障进行修复或隔离,因此无需人工费事费力的去修复故障,能够提高故障修复的效率和质量。本申请实施例提供的第二种PCIE故障的处理方法,是在上述第一种PCIE故障的处理方法的基础上,还包括如下技术特征:在所述对所述PCIE故障进行修复或隔离之后,还包括:将所述PCIE故障信息通知管理员。具体的,把故障的处理结果及详细的信息发送给管理员,可以以短信或邮件的方式进行通知,以确保故障处理合理,具体的形式包括但不限于制作图表或曲线,以辅助管理员更直观的观察故障。本申请实施例提供的第三种PCIE故障的处理方法,是在上述第二种PCIE故障的处理方法的基础上,还包括如下技术特征:在所述将所述PCIE故障信息通知管理员之后,还包括:针对所述PCIE故障信息进行报警。需要说明的是,有些故障信息较为严重,因此让信息以最快速度让管理员了解并处理是非常重要的,例如某个硬件损坏无法修复时,为了不影响系统的正常使用,就必须进行隔离,以CPU为例,一个机器上CPU有24核,假如其中一个核损坏了且无法修复,就必须尽快隔离,不能再使用,其他23个还可以使用,但是性能就有所下降,此时必须通知管理员及时更换设备,这种报警的方式能够表明事态紧本文档来自技高网...
一种PCIE故障的处理方法和装置

【技术保护点】
一种PCIE故障的处理方法,其特征在于,包括:在内核中采集PCIE故障信息;将所述PCIE故障信息从内核传输到用户态;在用户态对收集的所述PCIE故障信息进行分析;根据分析的结果,对所述PCIE故障进行修复或隔离。

【技术特征摘要】
1.一种PCIE故障的处理方法,其特征在于,包括:在内核中采集PCIE故障信息;将所述PCIE故障信息从内核传输到用户态;在用户态对收集的所述PCIE故障信息进行分析;根据分析的结果,对所述PCIE故障进行修复或隔离。2.根据权利要求1所述的PCIE故障的处理方法,其特征在于,在所述对所述PCIE故障进行修复或隔离之后,还包括:将所述PCIE故障信息通知管理员。3.根据权利要求2所述的PCIE故障的处理方法,其特征在于,在所述将所述PCIE故障信息通知管理员之后,还包括:针对所述PCIE故障信息进行报警。4.根据权利要求3所述的PCIE故障的处理方法,其特征在于,所述在内核中采集PCIE故障信息为:向系统中打入内核补丁,修改内核代码,在内核中采集PCIE故障信息。5.根据权利要求1-4任一项所述的PCIE故障的处理方法,其特征在于,所述将所述PCIE故障信息从内核传输到用户态为:以netlink的通信方式将所述PCIE故障信息...

【专利技术属性】
技术研发人员:常现超
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1