一种云平台故障监测方法及装置制造方法及图纸

技术编号:21065308 阅读:35 留言:0更新日期:2019-05-08 09:54
本发明专利技术公开了云平台故障监测方法及装置,通过主机故障监测过程由网络心跳消息和存储心跳消息配合实现,对失联状态的节点继续判断是失联故障还是问题故障进行进一步监测,并且通过故障概率值和用户预先给定的期望阈值,快速判断目标节点是否失联宕机以及故障原因,对故障监测方法进行优化,从而解决了现有技术中不能快速修复以及不能及时反应故障问题等技术问题。

【技术实现步骤摘要】
一种云平台故障监测方法及装置
本专利技术涉及故障监测
,特别涉及一种云平台故障监测方法及装置。
技术介绍
目前云平台中现有的故障监测方法一般是预先设定一个超时时间T,而被诊断的目标机会每间隔一段固定时间发起心跳数据包,在接收方一端,通过比较当前时间t和超时时间T的大小,来判断目标机是否宕机。在这种方式中,接收方首先要非常清楚目标的心跳大致规律才能正确设定一个超时时间T,而T的选择又依赖当前网络状况、目标主机的处理能力等很多因素。并且现有故障监测只能判断是否宕机,不能准确知晓故障原因从而不能快速修复。因此,亟待提出一种准确的云平台故障监测方法及装置。
技术实现思路
本专利技术实施例提供了一种云平台故障监测方法及装置,对故障监测方法进行优化,从而解决了现有技术中不能快速修复以及不能及时反应故障问题等技术问题。为了解决上述问题,本专利技术公开了如下技术方案:第一方面,提供一种云平台故障监测方法,所述方法包括:主机故障监测过程由网络心跳消息和存储心跳消息配合实现的:步骤一、开始时每个主机节点为活动状态,表示运行正常;步骤二、计算资源节点向计算管理节点发送所述网络心跳消息,所述计算管理节点接收到消息时,给所述计算资源节点发送响应消息;如果网络心跳信息正常,则判断所述计算资源节点为正常状态,转入步骤六;如果所述计算管理节点或者所述计算资源节点在固定时间周期内没有接收对方发送的消息,则设置所述计算资源节点其为失联状态,转入步骤三;步骤三、对处于失联状态的所述计算资源节点,所述计算管理节点发送命令给其他健康计算资源节点,由所述健康计算资源节点监测所述失联状态的所述计算资源节点的存储心跳,如果存储心跳正常,则置其为失联故障状态,进入步骤四;如果存储心跳失败,则判定计算资源节点故障,置为故障状态,进入步骤五;步骤四、重启所述失联故障状态的计算资源节点,返回步骤二;步骤五、迁移所述故障状态的计算资源节点上面的虚拟机,进入步骤六;步骤六、监测结束。进一步的,其中监测所述网络心跳消息包括:(1)用一个滑动窗口记录下接收到的计算节点的网络心跳信息的消息发送时间TS,以及目标节点的网络心跳信息的消息等待时间TW;(2)根据记录的网络心跳到达时间构建一概率分布;(3)通过该概率分布计算节点的故障概率值P;(4)故障概率值P和用户预先给定的期望阈值E(TW)进行比较,当P>E(TW)时则可认为节点发生了故障;其中消息等待时间TW的期望阈值为:上式中,σ代表消息的平均到达速率,其中包括网络心跳消息速率σb和数据消息速率σd,则σ=σb+σd;TQ代表一条消息总服务时间,它包含消息等待时间TW和消息发送时间TS,即TQ=TW+TS;在一定的网络环境中即消息长度L一定,网络带宽C一定,那么消息发送时间是一定的,即TS=L/C。第二方面,提供一种云平台故障监测装置,所述装置包括:初始模块,开始时每个主机节点为活动状态,表示运行正常;网络心跳消息监测模块,计算资源节点向计算管理节点发送所述网络心跳消息,所述计算管理节点接收到消息时,给所述计算资源节点发送响应消息;如果网络心跳信息正常,则判断所述计算资源节点为正常状态,进入监测关闭模块;如果所述计算管理节点或者所述计算资源节点在固定时间周期内没有接收对方发送的消息,则设置所述计算资源节点其为失联状态,进入存储心跳消息监测模块;存储心跳消息监测模块,对处于失联状态的所述计算资源节点,所述计算管理节点发送命令给其他健康计算资源节点,由所述健康计算资源节点监测所述失联状态的所述计算资源节点的存储心跳,如果存储心跳正常,则置其为失联故障状态,进入重启模块;如果存储心跳失败,则判定计算资源节点故障,置为故障状态,进入迁移模块;重启模块,重启所述失联故障状态的计算资源节点,返回所述网络心跳消息监测模块;迁移模块,迁移所述故障状态的计算资源节点上面的虚拟机,进入监测关闭模块;监测关闭模块,监测结束。进一步的,其中所述网络心跳消息监测模块还用于:(1)用一个滑动窗口记录下接收到的计算节点的网络心跳信息的消息发送时间TS,以及目标节点的网络心跳信息的消息等待时间TW;(2)根据记录的网络心跳到达时间构建一概率分布;(3)通过该概率分布计算节点的故障概率值P;(4)故障概率值P和用户预先给定的期望阈值E(TW)进行比较,当P>E(TW)时则可认为节点发生了故障;其中消息等待时间TW的期望阈值为:上式中,σ代表消息的平均到达速率,其中包括网络心跳消息速率σb和数据消息速率σd,则σ=σb+σd;TQ代表一条消息总服务时间,它包含消息等待时间TW和消息发送时间TS,即TQ=TW+TS;在一定的网络环境中即消息长度L一定,网络带宽C一定,那么消息发送时间是一定的,即TS=L/C。本专利技术公开了云平台故障监测方法及装置,通过主机故障监测过程由网络心跳消息和存储心跳消息配合实现,对失联状态的节点继续判断是失联故障还是问题故障进行进一步监测,并且通过故障概率值和用户预先给定的期望阈值,快速判断目标节点是否失联宕机以及故障原因,对故障监测方法进行优化,从而解决了现有技术中不能快速修复以及不能及时反应故障问题等技术问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例中云平台故障监测方法的流程示意图。图2是本专利技术另一个实施例中云平台故障监测装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1,本专利技术一个实施例提出了一种云平台故障监测方法的流程图。主机故障监测过程由网络心跳消息和存储心跳消息配合实现的:步骤一、开始时,每个主机节点为活动状态,表示运行正常;步骤二、计算资源节点向计算管理节点发送网络心跳消息,计算管理节点接收到消息时,给计算资源节点发送响应消息。如果网络心跳信息正常,则判断计算资源节点为正常状态,转入步骤六;如果计算管理节点或者计算资源节点在固定时间周期内没有接收对方发送的消息,则设置计算资源节点其为失联状态,转入步骤三;步骤三、对处于失联状态的计算资源节点,计算管理节点发送命令给其他健康计算资源节点,由健康计算资源节点监测失联状态的计算资源节点的存储心跳,如果存储心跳正常,则置其为失联故障状态,进入步骤四;如果存储心跳失败,则判定计算资源节点故障,置为故障状态,进入步骤五;步骤四、重启失联故障状态的计算资源节点,返回步骤二;步骤五、迁移故障状态的计算资源节点上面的虚拟机,进入步骤六。步骤六、监测结束。其中网络心跳消息监测具体过程如下:(1)用一个滑动窗口记录下接收到的计算节点的网络心跳信息的消息发送时间TS,以及目标节点的网络心跳信息的消息等待时间TW。(2)根据记录的网络心跳到达时间构本文档来自技高网...

【技术保护点】
1.一种云平台故障监测方法,其特征在于,所述方法包括:主机故障监测过程由网络心跳消息和存储心跳消息配合实现的:步骤一、开始时每个主机节点为活动状态,表示运行正常;步骤二、计算资源节点向计算管理节点发送所述网络心跳消息,所述计算管理节点接收到消息时,给所述计算资源节点发送响应消息;如果网络心跳信息正常,则判断所述计算资源节点为正常状态,转入步骤六;如果所述计算管理节点或者所述计算资源节点在固定时间周期内没有接收对方发送的消息,则设置所述计算资源节点其为失联状态,转入步骤三;步骤三、对处于失联状态的所述计算资源节点,所述计算管理节点发送命令给其他健康计算资源节点,由所述健康计算资源节点监测所述失联状态的所述计算资源节点的存储心跳,如果存储心跳正常,则置其为失联故障状态,进入步骤四;如果存储心跳失败,则判定计算资源节点故障,置为故障状态,进入步骤五;步骤四、重启所述失联故障状态的计算资源节点,返回步骤二;步骤五、迁移所述故障状态的计算资源节点上面的虚拟机,进入步骤六;步骤六、监测结束。

【技术特征摘要】
1.一种云平台故障监测方法,其特征在于,所述方法包括:主机故障监测过程由网络心跳消息和存储心跳消息配合实现的:步骤一、开始时每个主机节点为活动状态,表示运行正常;步骤二、计算资源节点向计算管理节点发送所述网络心跳消息,所述计算管理节点接收到消息时,给所述计算资源节点发送响应消息;如果网络心跳信息正常,则判断所述计算资源节点为正常状态,转入步骤六;如果所述计算管理节点或者所述计算资源节点在固定时间周期内没有接收对方发送的消息,则设置所述计算资源节点其为失联状态,转入步骤三;步骤三、对处于失联状态的所述计算资源节点,所述计算管理节点发送命令给其他健康计算资源节点,由所述健康计算资源节点监测所述失联状态的所述计算资源节点的存储心跳,如果存储心跳正常,则置其为失联故障状态,进入步骤四;如果存储心跳失败,则判定计算资源节点故障,置为故障状态,进入步骤五;步骤四、重启所述失联故障状态的计算资源节点,返回步骤二;步骤五、迁移所述故障状态的计算资源节点上面的虚拟机,进入步骤六;步骤六、监测结束。2.根据权利要求1所述的方法,其特征在于,进一步的,其中监测所述网络心跳消息包括:(1)用一个滑动窗口记录下接收到的计算节点的网络心跳信息的消息发送时间TS,以及目标节点的网络心跳信息的消息等待时间TW;(2)根据记录的网络心跳到达时间构建一概率分布;(3)通过该概率分布计算节点的故障概率值P;(4)故障概率值P和用户预先给定的期望阈值E(TW)进行比较,当P>E(TW)时则可认为节点发生了故障;其中消息等待时间TW的期望阈值为:上式中,σ代表消息的平均到达速率,其中包括网络心跳消息速率σb和数据消息速率σd,则σ=σb+σd;TQ代表一条消息总服务时间,它包含消息等待时间TW和消息发送时间TS,即TQ=TW+TS;在一定的网络环境中即消息长度L一定,网络带宽C一定,那么消息发送时间是一定的,即TS=L/C。3.一种云平台故障...

【专利技术属性】
技术研发人员:赵晶明孙峰张杰
申请(专利权)人:江苏汇智达信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1