【技术实现步骤摘要】
节点故障排查方法、装置、设备及计算机可读存储介质
本专利技术涉及云计算
,特别是涉及一种节点故障排查方法、装置、设备及计算机可读存储介质。
技术介绍
在云计算领域,云主机的高可用性,其关注点是云主机的容灾能力,最终目的是希望云平台底层物理资源的变动对云主机业务中断的影响降到最低。可用性(Availability)表示系统能在客户需要的时候提供服务的能力,而高则表示系统具有相当高的可靠性。高可用性中的"高"针对不同的系统的含义是不同的,而不是简简单单的7x24。最典型的场景就是物理节点宕机,云平台能够准确监测到故障,并能在可接受的时间内(不要超过MTTR,maximumtimetorepairorresolve)将故障节点上的云主机在新的物理节点上恢复。现有的云主机高可用方案大多采用红帽Redhat的Masakari+Pacemaker+Corosync方案,该方案以Pacemaker+Corosync作为监测层,以Masakari作为控制层和执行层,当监测层侦察到故障后,会报告信息给Masakari,Masak ...
【技术保护点】
1.一种节点故障排查方法,其特征在于,包括:/n接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果;/n从预存的决策矩阵中查找与所述通道故障协商结果对应的目标故障排查方案;其中,所述决策矩阵中预存有各通道故障协商结果与各故障排查方案之间的对应关系;/n向动作层节点发送所述目标故障排查方案,以使所述动作层节点利用所述目标故障排查方案进行故障排查。/n
【技术特征摘要】
1.一种节点故障排查方法,其特征在于,包括:
接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果;
从预存的决策矩阵中查找与所述通道故障协商结果对应的目标故障排查方案;其中,所述决策矩阵中预存有各通道故障协商结果与各故障排查方案之间的对应关系;
向动作层节点发送所述目标故障排查方案,以使所述动作层节点利用所述目标故障排查方案进行故障排查。
2.根据权利要求1所述的节点故障排查方法,其特征在于,接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果,包括:
接收监测层各节点发送的通过节点中各网卡IP地址预绑定的通道,利用gossip通信协议进行通信得到的通道故障协商结果。
3.根据权利要求1或2所述的节点故障排查方法,其特征在于,在从预存的决策矩阵中查找与所述通道故障协商结果对应的目标故障排查方案之后,还包括:
为所述目标故障排查方案设置时间戳;
向所述动作层节点发送所述目标故障排查方案,包括:
向所述动作层节点发送添加时间戳后的目标故障排查方案,以使所述动作层节点针对同一通道故障协商结果,选取接收到的各所述目标故障排查方案中时间戳最小的目标故障排查方案进行故障排查。
4.根据权利要求3所述的节点故障排查方法,其特征在于,还包括:
接收故障排查方案调整指令;
根据所述故障排查方案调整指令对所述决策矩阵进行调整操作。
5.一种节点故障排查装置,其特征在于,包括:
结果接收模块,用于接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果;
方案查找模块,用...
【专利技术属性】
技术研发人员:胡月恒,孙佳,苏广峰,
申请(专利权)人:北京浪潮数据技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。