System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及云计算,尤其涉及一种宿主机故障修复方法及装置、系统、电子设备和存储介质。
技术介绍
1、随着云计算技术的迅速发展,越来越多的企业都在积极推动传统业务应用迁移上云,即把原来部署在物理服务器上的业务系统改为部署到云服务器上,因此,云计算服务的可用性在一定程度上决定着客户业务的可用性。云计算服务通常运行在数量众多的物理服务器(即宿主机)上,由于宿主机数量基数大以及云计算本身的复杂性,常常因软硬件的各种故障导致宿主机出现整体或局部性的故障。而宿主机上,通常运行着多个承载客户业务的云主机,宿主机的故障将导致云主机无法正常运行,从而影响云计算服务的可用性。因此,开发出一种检测和修复宿主机故障的方法对于提升云计算服务的可用性十分必要。
2、相关的云计算宿主机故障修复技术,一般通过智能平台管理接口(intelligentplatform management interface,ipmi)协议,采集宿主机电源状态、cpu状态、内存状态和网卡状态的性能数据,并将上述性能数据与预设的性能数据指标进行比较来判断对应的宿主机是否需要进行疏散处理,对故障的判定不够全面且具有漏判的可能性,例如,在实际判定情况中,也可能是电源、cpu、内存和网卡等硬件都正常,但提供云主机服务的宿主机的软件层面发生夯死故障,导致宿主机上的云主机不可用,从而影响客户业务;并且宿主机故障判定的逻辑比较固化,不具备可配置性和可扩展性。
3、因此,相关的云计算技术中,由于宿主机故障判定的方面不够全面以及故障判定的逻辑固化的问题,进而导致降低云计算服务
技术实现思路
1、本公开提供了一种宿主机故障修复方法及装置、系统、电子设备和存储介质。其主要目的在于解决宿主机故障判定的方面不够全面以及故障判定的逻辑固化导致的云计算服务可用性降低的问题。
2、根据本公开的第一方面,提供了一种宿主机故障修复方法,所述方法应用于控制节点,包括:
3、在接收到被控节点发送的异常信息后,或在预设发送周期未接收到所述被控节点发送的心跳包后,根据故障判断规则对所述被控节点对应的宿主机进行至少一个故障的判定,所述故障判断规则包含预设判断顺序及判断逻辑;
4、将所述至少一个故障的集合确定为目标故障集;
5、从预先配置的故障集与处理方式集之间的映射关系,确定所述目标故障集对应的目标处理方式;
6、将所述目标处理方式发送至所述被控节点,以便所述被控节点根据所述目标处理方式对所述被控节点对应的宿主机进行修复。
7、可选地,所述根据故障判断规则对所述被控节点进行至少一个故障的判定包括:
8、确定所述故障判断规则中的预设判断顺序为依次执行硬件状态步骤、网络状态步骤、不同核心服务状态步骤的顺序;一个步骤对应一个判断逻辑;
9、根据所述执行步骤及对应的判断逻辑对所述被控节点对应的宿主机进行至少一个故障的判定。
10、可选地,所述根据所述执行步骤及对应的预设判断顺序对所述被控节点对应的宿主机进行至少一个故障的判定包括:
11、对所述被控节点对应的宿主机的所述电源状态进行检查,所述硬件状态包括电源状态;
12、在确定所述电源状态存在异常的情况下,则确定所述电源状态故障;
13、在确定所述电源状态正常的情况下,对所述被控节点对应的宿主机的所述网络状态进行检查,所述网络状态包括管理网连接及存储网连接;
14、在确定所述管理网连接异常的情况下,且确定所述存储网连接异常的情况下,则确定所述网络状态故障;
15、在确定所述存储网连接正常,和/或所述管理网连接正常的情况下,确定所述网络状态正常;
16、对所述不同核心服务状态进行检查,并确定存在故障的核心服务。
17、可选地,所述预设判断顺序及所述判断逻辑存储于有向无环图对应的配置文件中;
18、所述确定所述异常判断规则中的判断顺序为依次执行硬件状态步骤、网络状态步骤、不同核心服务状态步骤的顺序包括:
19、读取所述有向无环图对应的配置文件;
20、根据所述配置文件生成包含所述判断顺序及所述判断逻辑的有向无环图;
21、基于所述有向无环图确定所述故障判断规则中的判断顺序。
22、可选地,所述根据所述配置文件生成包含所述预设判断顺序及所述判断逻辑的有向无环图还包括:
23、在所述有向无环图对应的配置文件中新增判断顺序及对应的判断逻辑;
24、或,在所述有向无环图对应的配置文件中删除所述判断顺序及所述判断逻辑。
25、可选地,所述从预先配置的故障集与处理方式集之间的映射关系,确定所述目标故障集对应的目标处理方式,包括:
26、基于所述预先配置的故障集与处理方式集之间的映射关系,分别确定所述目标故障集中的故障或故障组合对应的多个处理方式,所述不同的处理方式对应不同的优先级;
27、根据优先级的排序结果从所述多个处理方式中确定目标处理方式。
28、可选地,在根据故障判断规则对所述被控节点对应的宿主机进行至少一个故障的判定前,所述方法包括:
29、向所述被控节点发送控制指令,所述控制指令用于指示所述被控节点采集所述被控节点对应宿主机的当前系统性能数据;以便所述被控节点执行所述控制指令,并将所述当前系统性能数据与预设系统性能数据指标的比对结果上传异常信息;
30、接收所述被控节点发送的所述异常信息;
31、监控所述被控节点是否按照所述预设发送周期发送心跳包。
32、根据本公开的第二方面,提供了一种宿主机故障修复装置,包括:
33、判定单元,用于在接收到被控节点发送的异常信息后,或在预设发送周期未接收到所述被控节点发送的心跳包后,根据故障判断规则对所述被控节点对应的宿主机进行至少一个故障的判定,所述故障判断规则包含预设判断顺序及判断逻辑;
34、第一确定单元,用于将所述至少一个故障的集合确定为目标故障集;
35、第二确定单元,用于从预先配置的故障集与处理方式集之间的映射关系,确定所述目标故障集对应的目标处理方式;
36、第一发送单元,用于将所述目标处理方式发送至所述被控节点,以便所述被控节点根据所述目标处理方式对所述被控节点对应的宿主机进行修复。
37、可选地,所述判定单元还用于:
38、确定所述故障判断规则中的预设判断顺序为依次执行硬件状态步骤、网络状态步骤、不同核心服务状态步骤的顺序;一个步骤对应一个判断逻辑;
39、根据所述执行步骤及对应的判断逻辑对所述被控节点对应的宿主机进行至少一个故障的判定。
40、可选地,所述判定单元包括:
41、第一检查模块,用于对所述被控节点对应的宿主机的所述电源状态进行检查,所述硬件状态包括电源状态;
42、第一确定模块,用于在确本文档来自技高网...
【技术保护点】
1.一种宿主机故障修复方法,其特征在于,所述方法应用于控制节点,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据故障判断规则对所述被控节点进行至少一个故障的判定包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述执行步骤及对应的预设判断顺序对所述被控节点对应的宿主机进行至少一个故障的判定包括:
4.根据权利要求3所述的方法,其特征在于,所述预设判断顺序及所述判断逻辑存储于有向无环图对应的配置文件中;
5.根据权利要求4所述的方法,其特征在于,所述根据所述配置文件生成包含所述预设判断顺序及所述判断逻辑的有向无环图还包括:
6.根据权利要求1所述的方法,其特征在于,所述从预先配置的故障集与处理方式集之间的映射关系,确定所述目标故障集对应的目标处理方式,包括:
7.根据权利要求1所述的方法,其特征在于,在根据故障判断规则对所述被控节点对应的宿主机进行至少一个故障的判定前,所述方法包括:
8.一种宿主机故障修复装置,其特征在于,所述装置应用于控制节点,包括:
9.一种宿主机
10.一种电子设备,其特征在于,包括:
...【技术特征摘要】
1.一种宿主机故障修复方法,其特征在于,所述方法应用于控制节点,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据故障判断规则对所述被控节点进行至少一个故障的判定包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述执行步骤及对应的预设判断顺序对所述被控节点对应的宿主机进行至少一个故障的判定包括:
4.根据权利要求3所述的方法,其特征在于,所述预设判断顺序及所述判断逻辑存储于有向无环图对应的配置文件中;
5.根据权利要求4所述的方法,其特征在于,所述根据所述配置文件生成包含所述预设判断...
【专利技术属性】
技术研发人员:肖银秋,陆鋆,李向瑜,
申请(专利权)人:中移苏州软件技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。