一种故障检测方法及装置、电子设备制造方法及图纸

技术编号:39128597 阅读:8 留言:0更新日期:2023-10-23 14:49
本申请公开了一种故障检测方法及装置、电子设备,应用于超算云平台,该方法包括:当通过超算机反馈的多个计算进程进行计算时,针对任意一个计算进程,创建与计算进程对应的检测线程,控制计算进程通过检测线程向相邻进程发送检测请求,间隔第一预设时间,确定相邻进程中向检测线程反馈响应的初步正常进程和未向检测线程反馈响应的初步故障进程;当预设的进程通信拓扑结构中,在所有相邻进程反馈响应后,若确定正常进程的数量达到预设阈值,则将除正常进程以外的计算进程作为故障进程。以此解决现有用户级故障检测方法超时时间难设置,检测结果无法保证一致性所带来的问题。结果无法保证一致性所带来的问题。结果无法保证一致性所带来的问题。

【技术实现步骤摘要】
一种故障检测方法及装置、电子设备


[0001]本专利技术涉及超算故障检测
,特别涉及一种故障检测方法及装置、电子设备。

技术介绍

[0002]超算云化是构建算力网络的重要需求,使超算机能够通过云平台共享其算力,但超算云化会面临着高故障概率的问题,并且故障场景更加复杂,需要通过容错技术提高服务的可靠性,减少因故障带来的损失。其中,故障检测是容错技术实现的前提,传统基于心跳的云平台使用的用户级故障检测方法在超大规模计算节点上的应用面临着检测结果无法保证一致性,无法区分进程是崩溃或缓慢等问题;传统故障检测方式难以应用到节点规模大、平均故障时间间隔短的系统环境。

技术实现思路

[0003]本申请的目的是提供一种故障检测方法及装置、电子设备。用于解决传统用户级故障检测方法超时时间难设置,检测结果无法保证一致性所带来的问题。
[0004]第一方面,本申请实施例提供了一种故障检测方法,所述方法包括:
[0005]当通过超算机反馈的多个计算进程进行计算时,针对任意一个计算进程,创建与所述计算进程对应的检测线程,控制所述计算进程通过所述检测线程向相邻进程发送检测请求,间隔第一预设时间,确定所述相邻进程中向所述检测线程反馈响应的初步正常进程和未向所述检测线程反馈响应的初步故障进程;
[0006]当预设的进程通信拓扑结构中,在所有相邻进程反馈响应后,若确定正常进程的数量达到预设阈值,则将除所述正常进程以外的计算进程作为故障进程;
[0007]其中,所述相邻进程为所述拓扑结构中与所述计算进程存在相邻关系的进程;所述正常进程包括所述初步正常进程和所述初步故障进程转换为正常的进程。
[0008]在一些可能的实施例中,所述方法还包括:经过所述第一预设时间,控制所述计算进程通过所述检测线程向替代进程发送检测请求;
[0009]经过第二预设时间,控制所述替代进程通过所述检测线程向所述计算进程反馈响应;
[0010]其中,所述替代进程为所述拓扑结构中,与所述初步故障进程存在相邻关系的任一个进程。
[0011]在一些可能的实施例中,通过下列方式确定所述初步故障进程转换为正常的进程:
[0012]实时监测所述初步故障进程;
[0013]在所有相邻进程反馈响应之前,若监测到所述初步故障进程中存在通过所述检测线程向所述计算进程反馈响应,则确定所述初步故障进程转换为正常进程。
[0014]在一些可能的实施例中,所述方法还包括:
[0015]在所有相邻进程反馈响应后,若确定正常进程的数量未达到预设阈值,则继续监测所述初步故障进程是否转换为所述正常进程。
[0016]在一些可能的实施例中,所述确定正常进程的数量达到预设阈值后,所述将除所述正常进程以外的计算进程作为故障进程之前,所述方法还包括:
[0017]经过第三预设时间,将转换为正常进程的所述初步故障进程作为所述正常进程。
[0018]第二方面,本申请实施例提供了一种故障检测装置,所述装置包括:
[0019]建立通信模块:用于当通过超算机反馈的多个计算进程进行计算时,针对任意一个计算进程,创建与所述计算进程对应的检测线程,控制所述计算进程通过所述检测线程向相邻进程发送检测请求,间隔第一预设时间,确定所述相邻进程中向所述检测线程反馈响应的初步正常进程和未向所述检测线程反馈响应的初步故障进程;
[0020]确定故障进程模块,用于当预设的进程通信拓扑结构中,在所有相邻进程反馈响应后,若确定正常进程的数量达到预设阈值,则将除所述正常进程以外的计算进程作为故障进程;
[0021]其中,所述相邻进程为所述拓扑结构中与所述计算进程存在相邻关系的进程;所述正常进程包括所述初步正常进程和所述初步故障进程转换为正常的进程。
[0022]第三方面,本申请实施例提供一种电子设备,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执上述第一方面提供的故障检测方法。
[0023]第四方面,本申请实施例提供计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序用于使计算机执行上述第一方面提供的故障检测方法。
[0024]本申请实施例,为了解决传统用户级故障检测方法超时时间难设置,检测结果无法保证一致性所带来的问题,本申请实施例通过计时和计数的方式,由正常计算进程之间共同决定,过滤响应超时的故障进程,视为初步故障进程。并将检测结果上报给云平台,云平台呈现给用户,由云平台或用户决定容错方案。超算中心和超算云平台相融合,在运行超大规模计算任务的场景下,能够为用户提供更灵活、有效的故障解决方案,进而提供更可靠的计算服务。
[0025]本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
[0026]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0027]图1为根据本申请一个实施例的应用环境的示意图;
[0028]图2为根据本申请一个实施例的故障检测方法的流程示意图;
[0029]图3为根据本申请一个实施例的故障检测方法中环

树拓扑结构的意图;
[0030]图4为根据本申请一个实施例的环

树拓扑结构中出现故障的示意图;
[0031]图5为根据本申请一个实施例的故障检测方法的详细流程示意图;
[0032]图6为根据本申请一个实施例的故障检测装置结构示意图;
[0033]图7为根据本申请一个实施例的一种电子设备结构示意图。
具体实施方式
[0034]下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
[0035]在本申请实施例的描述中,除非另有说明,术语“多个”是指两个或两个以上,其它量词与之类似应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
[0036]为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障检测方法,应用于超算云平台,其特征在于,所述方法包括:当通过超算机反馈的多个计算进程进行计算时,针对任意一个计算进程,创建与所述计算进程对应的检测线程,控制所述计算进程通过所述检测线程向相邻进程发送检测请求,间隔第一预设时间,确定所述相邻进程中向所述检测线程反馈响应的初步正常进程和未向所述检测线程反馈响应的初步故障进程;当预设的进程通信拓扑结构中,在所有相邻进程反馈响应后,若确定正常进程的数量达到预设阈值,则将除所述正常进程以外的计算进程作为故障进程;其中,所述相邻进程为所述拓扑结构中与所述计算进程存在相邻关系的进程;所述正常进程包括所述初步正常进程和所述初步故障进程转换为正常的进程。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:经过所述第一预设时间,控制所述计算进程通过所述检测线程向替代进程发送检测请求;经过第二预设时间,控制所述替代进程通过所述检测线程向所述计算进程反馈响应;其中,所述替代进程为所述拓扑结构中,与所述初步故障进程存在相邻关系的任一个进程。3.根据权利要求1所述的方法,其特征在于,通过下列方式确定所述初步故障进程转换为正常的进程:实时监测所述初步故障进程;在所有相邻进程反馈响应之前,若监测到所述初步故障进程中存在通过所述检测线程向所述计算进程反馈响应,则确定所述初步故障进程转换为正常进程。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所有相邻进程反馈响应后,若确定正常进程的数量未达到预设阈值,则继续监测所述初步故障进程是否转换为所述正常进程。5.根据权利要求1~4任一所述的方法,其特征在于,所述确定正常进程的数量达到预设阈值后,所述将除所述正常进程以外的计算进程作为故障进程之前,所述方法还包括:经过第三预设时间,将转换为正常进程的所述初步故障进程作为所述正常进程。6.一种故障检测装置,其特征在于,所述装置...

【专利技术属性】
技术研发人员:叶盈均阮科余伟浩龚霞黄灿灿
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1