集群故障处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:33992012 阅读:19 留言:0更新日期:2022-07-02 09:56
本发明专利技术实施例提出的一种集群故障处理方法、装置、电子设备及存储介质,通过预设的与集群对应的代理服务对集群进行故障节点检测,在确定集群中存在故障节点时,创建故障节点对应的快照函数,通过执行快照函数获取故障节点的容器内部快照信息和容器外部快照信息。本方案在确定存在故障节点时,通过执行快照任务获取故障节点的快照信息,解决了目前仅根据节点运行状态进行故障定位存在的,取证困难、定位困难等问题。难等问题。难等问题。

【技术实现步骤摘要】
集群故障处理方法、装置、电子设备及可读存储介质


[0001]本专利技术实施例涉及集群
,具体涉及一种集群故障处理方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着信息化技术的推进,无论是企业还是其他组织机构都越来越依赖于计算机系统。伴随着数据量的急剧膨胀,单个计算机已经无法满足其需要,若使用超级计算机又极大的增大了计算机的成本,在这种情况下,Kubernetes集群应运而生,Kubernetes集群是由多个用于运行容器化应用的节点组成的集群,节点可以是物理机或者虚拟机,节点负责执行请求和所分配任务。
[0003]Kubernetes集群在运行时会由于节点发生故障,导致不能正常提供服务,影响生产系统的可靠性。
[0004]目前集群使用的故障处理方法为,对集群中节点的运行状态进行监控,当检测到节点存在故障时,对其运行状态进行更改,然后由运维人员登录系统中,根据节点的运行状态查找出发生故障的节点。采用上述方式,如果故障是阶段间隙性触发的话,若运维人员不能在故障发生的第一时间登录到系统进行相关的取证,则可能导致故障定位困难。
[0005]上述对问题的发现过程的描述,仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0006]为了解决目前存在的故障定位困难的技术问题,本专利技术实施例提供了一种集群故障处理方法、装置、电子设备及存储介质。
[0007]有鉴于此,第一方面,本专利技术实施例提供一种集群故障处理方法,包括:
>[0008]利用预先设置的与集群对应的代理服务,对所述集群进行故障节点检测;
[0009]在确定所述集群中存在故障节点时,创建与所述故障节点对应的快照函数;
[0010]执行所述快照函数,以获取所述故障节点的容器内部快照信息和容器外部快照信息。
[0011]作为一种可能的实现方式,执行所述快照函数,以获取所述故障节点的容器内部快照信息和容器外部快照信息,包括:
[0012]所述快照函数中包含多条快照指令,所述多条快照指令包含用于获取容器外部快照信息的快照指令和用于获取容器内部快照信息的快照指令;
[0013]根据每条快照指令对应的执行顺序,依次执行所述多条快照指令,从而获取到所述故障节点的容器内部快照信息和容器外部快照信息。
[0014]作为一种可能的实现方式,所述用于获取容器外部快照信息的快照指令包含下述指令中的至少一种:
[0015]用于获取操作系统快照信息的快照指令、用于获取主机网络快照信息的快照指
令、用于获取系统操作日志快照信息的快照指令、用于获取主机硬件快照信息的快照指令;
[0016]所述用于获取容器内部快照信息的快照指令包含:
[0017]用于获取容器快照信息的快照指令。
[0018]作为一种可能的实现方式,基于预先设置的与集群对应的代理服务,对所述集群进行故障节点检测,包括:
[0019]所述代理服务获取所述集群的运行信息,所述运行信息中包含所述集群中各节点的工作状态信息;
[0020]针对每个节点,将节点的工作状态信息与该节点对应的预设工作状态信息进行比较;
[0021]若节点的工作状态信息与该节点对应的预设工作状态信息不一致,则确定该节点为故障节点。
[0022]作为一种可能的实现方式,所述方法还包括:
[0023]预先创建目标目录;
[0024]基于所述目标目录对所述故障节点的容器内部快照信息和容器外部快照信息进行存储。
[0025]作为一种可能的实现方式,基于所述目标目录对所述故障节点的容器内部快照信息和容器外部快照信息进行存储,包括:
[0026]所述目标目录包含多个子目录,不同的子目录用于存储不同快照指令获取的快照信息;
[0027]针对所述容器内部快照信息和容器外部快照信息中的每一条快照信息,执行如下步骤:
[0028]确定快照信息对应的快照指令,基于该快照指令确定该快照信息对应的子目录,将该快照信息存储至所述子目录。
[0029]作为一种可能的实现方式,所述方法还包括:
[0030]基于预设的发送方式,将所述故障节点的容器内部快照信息和容器外部快照信息发送至设定人员。
[0031]第二方面,本申请实施例还提供了一种集群故障处理装置,包括:
[0032]故障检测模块,用于利用预先设置的与集群对应的代理服务,对所述集群进行故障节点检测;
[0033]快照函数创建模块,用于在确定所述集群中存在故障节点时,创建与所述故障节点对应的快照函数;
[0034]快照模块,用于执行所述快照函数,以获取所述故障节点的容器内部快照信息和容器外部快照信息。
[0035]第三方面,本申请实施例还提供了一种电子设备,包括至少一个处理器以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行第一方面所述的集群故障处理方法的步骤。
[0036]第四方面,本申请实施例还提供了一种可读存储介质,所述可读存储介质存储计算机指令,所述计算机指令使计算机执行第一方面所述的集群故障处理方法的步骤。
[0037]相比现有技术,本专利技术实施例提出的一种集群故障处理方法,通过预设的与集群
对应的代理服务对集群进行故障节点检测,在确定集群中存在故障节点时,创建故障节点对应的快照函数,通过执行快照函数获取故障节点的容器内部快照信息和容器外部快照信息。本方案在确定存在故障节点时,通过执行快照任务获取故障节点的快照信息,解决了目前仅根据节点运行状态进行故障定位存在的,取证困难、定位困难等问题。
附图说明
[0038]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0039]图1为本专利技术实施例提供的一种集群故障处理方法的流程图;
[0040]图2为本专利技术实施例提供的另一种集群故障处理方法的流程图;
[0041]图3为本专利技术实施例提供的一种代理服务与集群关系的示意图;
[0042]图4为本专利技术实施例提供的一种集群故障处理装置的框图;
[0043]图5为本专利技术实施例提供的一种电子设备的框图。
具体实施方式
[0044]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0045]图1为本专利技术实施例提供的一种集群故障处理方法的流程图,如图1本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种集群故障处理方法,其特征在于,包括:利用预先设置的与集群对应的代理服务,对所述集群进行故障节点检测;在确定所述集群中存在故障节点时,创建与所述故障节点对应的快照函数;执行所述快照函数,以获取所述故障节点的容器内部快照信息和容器外部快照信息。2.根据权利要求1所述的方法,其特征在于,执行所述快照函数,以获取所述故障节点的容器内部快照信息和容器外部快照信息,包括:所述快照函数中包含多条快照指令,所述多条快照指令包含用于获取容器外部快照信息的快照指令和用于获取容器内部快照信息的快照指令;根据每条快照指令对应的执行顺序,依次执行所述多条快照指令,从而获取到所述故障节点的容器内部快照信息和容器外部快照信息。3.根据权利要求2所述的方法,其特征在于,所述用于获取容器外部快照信息的快照指令包含下述指令中的至少一种:用于获取操作系统快照信息的快照指令、用于获取主机网络快照信息的快照指令、用于获取系统操作日志快照信息的快照指令、用于获取主机硬件快照信息的快照指令;所述用于获取容器内部快照信息的快照指令包含:用于获取容器快照信息的快照指令。4.根据权利要求1所述的方法,其特征在于,基于预先设置的与集群对应的代理服务,对所述集群进行故障节点检测,包括:所述代理服务获取所述集群的运行信息,所述运行信息中包含所述集群中各节点的工作状态信息;针对每个节点,将节点的工作状态信息与该节点对应的预设工作状态信息进行比较;若节点的工作状态信息与该节点对应的预设工作状态信息不一致,则确定该节点为故障节点。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:预先...

【专利技术属性】
技术研发人员:陈阔
申请(专利权)人:苏州国双软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1