一种心跳监测方法及监控设备技术

技术编号:22080940 阅读:22 留言:0更新日期:2019-09-12 15:59
本申请实施例公开了一种心跳监测方法及监控设备,涉及通信技术领域,能够均衡降低心跳超时造成的业务损失的需求和避免频繁进行业务迁移的需求,降低心跳超时对系统业务造成的损耗。包括:监控设备超过第一门限时长未接收到被监控设备发送的数据包,则确定导致所述监控设备超过所述第一门限时长未接收到所述数据包的故障原因;所述数据包为心跳数据包或所述监控设备发送给所述被监控设备的心跳数据包对应的响应数据包,所述故障原因为所述被监控设备故障或所述监控设备与所述被监控设备之间的网络故障;所述监控设备根据所述故障原因以及所述第一门限时长确定第二门限时长,根据所述第二门限时长对所述被监控设备进行心跳监测。

A Heart Rate Monitoring Method and Monitoring Equipment

【技术实现步骤摘要】
一种心跳监测方法及监控设备
本申请实施例涉及通信
,尤其涉及一种心跳监测方法及监控设备。
技术介绍
心跳监测机制是一种常见且应用广泛的故障检测机制,具体地:监控设备周期性发送心跳数据包给被监控设备,被监控设备发送响应数据包给监控设备以表明本身的状态正常。或,被监控设备主动地周期性上报心跳数据包给监控设备。当监控设备在超过门限时长T1收不到被监控设备的心跳数据包或响应数据包(即心跳超时),则判定该被监控设备故障。此后,监控设备可以把该被监控设备的故障通知给其他正常运行的设备,可以将故障设备上的业务迁移至正常运行的设备上,进行业务迁移的时长为T2。因此,一次心跳超时需要T1+T2才能恢复,在这段时间内被监控设备的业务会受到影响,对系统业务的损失时间为T1+T2。发生心跳超时的原因可能是被监控设备宕机或监控设备与被监控设备之间的网络异常。其中,被监控设备宕机需要进行业务迁移;监控设备与被监控设备之间的网络异常会自动恢复,不需要进行业务迁移。如果门限时长较小,可以缩短心跳超时造成的损失时间,但是由于门限时长较短会导致网络闪断时长很容易满足门限时长,进而频繁触发业务迁移,频繁进行业务迁移会给系统业务造成很大损失。门限时长较大的话,虽然会降低网络闪断触发业务迁移的几率,但会延长心跳超时造成的业务损失。可见,现有技术无法均衡降低心跳超时造成的业务损失的需求和避免频繁进行业务迁移的需求,由于心跳超时导致系统业务的损耗较大。
技术实现思路
本申请实施例提供一种心跳监测方法及监控设备,能够均衡降低心跳超时造成的业务损失的需求和避免频繁进行业务迁移的需求,降低心跳超时对系统业务造成的损耗。第一方面,公开了一种心跳监测方法,包括:监控设备超过第一门限时长未接收到被监控设备发送的数据包,则确定导致监控设备超过所述第一门限时长未接收到所述数据包的故障原因。其中,所述数据包为心跳数据包或监控设备发送给被监控设备的心跳数据包对应的响应数据包。所述故障原因为被监控设备故障或监控设备与被监控设备之间的网络故障。进一步,监控设备根据所述故障原因以及所述第一门限时长确定第二门限时长,后续过程中监控设备可以根据第二门限时长对被监控设备进行心跳监测。本专利技术实施例提供的心跳监测方法,监控设备在被监控设备心跳超时后,确定被监控设备心跳超时的故障原因,进而根据故障原因来调整对目前设备的门限时长进行调整,获得新的门限时长。由于故障具有可重现性、相似性,后续被监控设备有很大的几率会再次出现同样的故障,因此可以通过某一次的故障原因来调整门限时长,并根据新的门限时长在后续过程中对被监控设备进行心跳监测。如此,可以降低后续一段时间内被监控设备出现相同故障对系统业务的整体损耗。示例的,如果故障原因是监控设备与被监控设备之间的网络故障,则设置较大的门限时长,尽可能保证后续网络闪断时长(即监控设备与被监控设备之间的网络故障的时长)小于门限时长,进而不会频繁触发不必要的业务迁移,减少系统的业务损耗。如果故障原因是被监控设备自身出现故障,则设置较小的门限时长,尽可能缩短后续心跳超时进行业务迁移带来的业务损耗。结合第一方面,在第一方面的第一种可能的实现方式中,监控设备确定被监控设备的故障原因具体包括:查询被监控设备的运行记录确定被监控设备在第一门限时长内连续运行,则确定故障原因为监控设备与被监控设备之间的网络故障;查询被监控设备的连续运行记录确定被监控设备在第一门限时长内未连续运行,则确定故障原因为被监控设备故障。具体实现中,可以查询故障时间点之间一段时间(大于或等于门限时长)内,被监控设备的运行记录,进而就可以确定被监控设备在第一门限时长内是否连续运行。如果被监控设备在第一门限时长内未连续运行,说明在第一门限时长内被监控设备曾经宕机,反之,如果被监控设备在第一门限时长内连续运行,说明第一门限时长内被监控设备并未发生过宕机,心跳超时的原因是监控设备与被监控设备之间的网络故障。结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,第一门限时长为最大门限时长,监控设备根据故障原因将第一门限时长更新为第二门限时长具体包括:若故障原因为监控设备与被监控设备之间的网络故障,则确定第二门限时长等于第一门限时长;若故障原因为监控设备与被监控设备故障,则确定第二门限时长小于第一门限时长。也就是说如果在先设置的门限时长是一个较大的数值,进一步,如果故障原因为网络闪断则说明网络闪断时间过长,导致的网络长时间中断对NFV系统的业务损耗很大,因此当网络中断的时间大于业务迁移时间,不如直接进行业务迁移,保证业务尽快恢复,尽可能减少对NFV系统的业务损耗。因此可以保持第一门限时长T1不变,即第二门限时长与第一门限时长相等。如此,后续网络闪断会触发业务迁移,减少对NFV系统的业务损耗。若所述故障原因为所述监控设备与所述被监控设备故障,则确定所述第二门限时长小于所述第一门限时长。后续过程中,被监控设备出现的故障很有可能仍是宕机,那么可以适当缩短第一门限时长T1,后续可以通过更短的时间检测到宕机,进而也就缩短了心跳超时触发业务迁移给NFV网络带来的业务损失。结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,第一门限时长为最小门限时长,监控设备根据故障原因将第一门限时长更新为第二门限时长具体包括:若故障原因为监控设备与被监控设备之间的网络故障,则确定第二门限时长大于第一门限时长;若故障原因为监控设备与被监控设备故障,则确定第二门限时长等于第一门限时长。若所述故障原因为所述监控设备与所述被监控设备之间的网络故障,则确定所述第二门限时长大于所述第一门限时长。后续过程中,被监控设备出现的故障很有可能仍是网络闪断,适当的增加第一门限时长,后续出现网络闪断的持续时间就不容易大于门限时长,进而不会频繁触发业务迁移。若所述故障原因为所述监控设备与所述被监控设备故障,则确定所述第二门限时长等于所述第一门限时长。后续过程中,被监控设备出现的故障很有可能仍是宕机,由于第一门限时长是最小了,那么可以保持第一门限时长不变,使得监控设备在后续过程中仍可以通过较短的时间检测到宕机,进而也就缩短了心跳超时触发业务迁移给NFV网络带来的业务损失。结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第四种可能的实现方式中,第一门限时长为大于最小门限时长小于最大门限时长的任意值,监控设备根据故障原因将第一门限时长更新为第二门限时长具体包括:若故障原因为监控设备与被监控设备之间的网络故障,则确定第二门限时长大于第一门限时长,且小于最大门限时长;若故障原因为监控设备与被监控设备故障,则确定第二门限时长小于第一门限时长,且大于最小门限时长。若所述故障原因为所述监控设备与所述被监控设备之间的网络故障,则确定所述第二门限时长大于所述第一门限时长,且小于所述最大门限时长。也就是说,后续过程中,被监控设备出现的故障很有可能仍是网络闪断,适当的增加第一门限时长,后续出现网络闪断的持续时间就不容易大于门限时长,进而不会频繁触发业务迁移。若所述故障原因为所述监控设备与所述被监控设备故障,则确定所述第二门限时长小于所述第一门限时长,且大于所述最小门限时长。后续过程中,被监控设备出现的本文档来自技高网...

【技术保护点】
1.一种心跳监测方法,其特征在于,包括:监控设备超过第一门限时长未接收到被监控设备发送的数据包,则确定导致所述监控设备超过所述第一门限时长未接收到所述数据包的故障原因;所述数据包为心跳数据包或所述监控设备发送给所述被监控设备的心跳数据包对应的响应数据包,所述故障原因为所述被监控设备故障或所述监控设备与所述被监控设备之间的网络故障;所述监控设备根据所述故障原因以及所述第一门限时长确定第二门限时长,根据所述第二门限时长对所述被监控设备进行心跳监测。

【技术特征摘要】
1.一种心跳监测方法,其特征在于,包括:监控设备超过第一门限时长未接收到被监控设备发送的数据包,则确定导致所述监控设备超过所述第一门限时长未接收到所述数据包的故障原因;所述数据包为心跳数据包或所述监控设备发送给所述被监控设备的心跳数据包对应的响应数据包,所述故障原因为所述被监控设备故障或所述监控设备与所述被监控设备之间的网络故障;所述监控设备根据所述故障原因以及所述第一门限时长确定第二门限时长,根据所述第二门限时长对所述被监控设备进行心跳监测。2.根据权利要求1所述的方法,其特征在于,所述监控设备确定所述被监控设备的故障原因具体包括:查询所述被监控设备的运行记录确定所述被监控设备在所述第一门限时长内连续运行,则确定所述故障原因为所述监控设备与所述被监控设备之间的网络故障;查询所述被监控设备的连续运行记录确定所述被监控设备在所述第一门限时长内未连续运行,则确定所述故障原因为所述被监控设备故障。3.根据权利要求1或2所述的方法,其特征在于,所述第一门限时长为最大门限时长,所述监控设备根据所述故障原因将所述第一门限时长更新为第二门限时长具体包括:若所述故障原因为所述监控设备与所述被监控设备之间的网络故障,则确定所述第二门限时长等于所述第一门限时长;若所述故障原因为所述监控设备与所述被监控设备故障,则确定所述第二门限时长小于所述第一门限时长。4.根据权利要求1或2所述的方法,其特征在于,所述第一门限时长为最小门限时长,所述监控设备根据所述故障原因将所述第一门限时长更新为第二门限时长具体包括:若所述故障原因为所述监控设备与所述被监控设备之间的网络故障,则确定所述第二门限时长大于所述第一门限时长;若所述故障原因为所述监控设备与所述被监控设备故障,则确定所述第二门限时长等于所述第一门限时长。5.根据权利要求1或2所述的方法,其特征在于,所述第一门限时长为大于最小门限时长小于最大门限时长的任意值,所述监控设备根据所述故障原因将所述第一门限时长更新为第二门限时长具体包括:若所述故障原因为所述监控设备与所述被监控设备之间的网络故障,则确定所述第二门限时长大于所述第一门限时长,且小于所述最大门限时长;若所述故障原因为所述监控设备与所述被监控设备...

【专利技术属性】
技术研发人员:林凯江
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1