一种云平台故障监测方法及装置制造方法及图纸

技术编号：21065308 阅读：46 留言：0更新日期：2019-05-08 09:54

本发明专利技术公开了云平台故障监测方法及装置，通过主机故障监测过程由网络心跳消息和存储心跳消息配合实现，对失联状态的节点继续判断是失联故障还是问题故障进行进一步监测，并且通过故障概率值和用户预先给定的期望阈值，快速判断目标节点是否失联宕机以及故障原因，对故障监测方法进行优化，从而解决了现有技术中不能快速修复以及不能及时反应故障问题等技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种云平台故障监测方法及装置
本专利技术涉及故障监测
，特别涉及一种云平台故障监测方法及装置。
技术介绍
目前云平台中现有的故障监测方法一般是预先设定一个超时时间T，而被诊断的目标机会每间隔一段固定时间发起心跳数据包，在接收方一端，通过比较当前时间t和超时时间T的大小，来判断目标机是否宕机。在这种方式中，接收方首先要非常清楚目标的心跳大致规律才能正确设定一个超时时间T，而T的选择又依赖当前网络状况、目标主机的处理能力等很多因素。并且现有故障监测只能判断是否宕机，不能准确知晓故障原因从而不能快速修复。因此，亟待提出一种准确的云平台故障监测方法及装置。
技术实现思路
本专利技术实施例提供了一种云平台故障监测方法及装置，对故障监测方法进行优化，从而解决了现有技术中不能快速修复以及不能及时反应故障问题等技术问题。为了解决上述问题，本专利技术公开了如下技术方案：第一方面，提供一种云平台故障监测方法，所述方法包括：主机故障监测过程由网络心跳消息和存储心跳消息配合实现的：步骤一、开始时每个主机节点为活动状态，表示运行正常；步骤二、计算资源节点向计算管理节点发送所述网络心跳消息...

【技术保护点】
1.一种云平台故障监测方法，其特征在于，所述方法包括：主机故障监测过程由网络心跳消息和存储心跳消息配合实现的：步骤一、开始时每个主机节点为活动状态，表示运行正常；步骤二、计算资源节点向计算管理节点发送所述网络心跳消息，所述计算管理节点接收到消息时，给所述计算资源节点发送响应消息；如果网络心跳信息正常，则判断所述计算资源节点为正常状态，转入步骤六；如果所述计算管理节点或者所述计算资源节点在固定时间周期内没有接收对方发送的消息，则设置所述计算资源节点其为失联状态，转入步骤三；步骤三、对处于失联状态的所述计算资源节点，所述计算管理节点发送命令给其他健康计算资源节点，由所述健康计算资源节点监测所述失联...

【技术特征摘要】
1.一种云平台故障监测方法，其特征在于，所述方法包括：主机故障监测过程由网络心跳消息和存储心跳消息配合实现的：步骤一、开始时每个主机节点为活动状态，表示运行正常；步骤二、计算资源节点向计算管理节点发送所述网络心跳消息，所述计算管理节点接收到消息时，给所述计算资源节点发送响应消息；如果网络心跳信息正常，则判断所述计算资源节点为正常状态，转入步骤六；如果所述计算管理节点或者所述计算资源节点在固定时间周期内没有接收对方发送的消息，则设置所述计算资源节点其为失联状态，转入步骤三；步骤三、对处于失联状态的所述计算资源节点，所述计算管理节点发送命令给其他健康计算资源节点，由所述健康计算资源节点监测所述失联状态的所述计算资源节点的存储心跳，如果存储心跳正常，则置其为失联故障状态，进入步骤四；如果存储心跳失败，则判定计算资源节点故障，置为故障状态，进入步骤五；步骤四、重启所述失联故障状态的计算资源节点，返回步骤二；步骤五、迁移所述故障状态的计算资源节点上面的虚拟机，进入步骤六；步骤六、监测结束。2.根据权利要求1所述的方法，其特征在于，进一步的，其中监测所述网络心跳消息包括：(1)用一个滑动窗口记录下接收到的计算节点的网络心跳信息的消息发送时间TS，以及目标节点的网络心跳信息的消息等待时间TW；(2)根据记录的网络心跳到达时间构建一概率分布；(3)通过该概率分布计算节点的故障概率值P；(4)故障概率值P和用户预先给定的期望阈值E(TW)进行比较，当P>E(TW)时则可认为节点发生了故障；其中消息等待时间TW的期望阈值为：上式中，σ代表消息的平均到达速率，其中包括网络心跳消息速率σb和数据消息速率σd，则σ＝σb+σd；TQ代表一条消息总服务时间，它包含消息等待时间TW和消息发送时间TS，即TQ＝TW+TS；在一定的网络环境中即消息长度L一定，网络带宽C一定，那么消息发送时间是一定的，即TS＝L/C。3.一种云平台故障...

【专利技术属性】
技术研发人员：赵晶明，孙峰，张杰，
申请(专利权)人：江苏汇智达信息科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人