一种网络故障检测方法及装置制造方法及图纸

技术编号:23938310 阅读:18 留言:0更新日期:2020-04-25 04:01
本申请实施例提供了一种网络故障检测方法及装置,应用于业务集群内第一业务节点中的第一设备,包括:针对各待测链路计算表征统计周期内通过该待测链路所发送消息的消息时延作为链路时延,待测链路为与第一业务节点不同的待测业务节点中各个第二设备与第一设备间的链路,消息时延为向第二设备发送消息至接收到第二设备反馈响应间的时延;针对每一第二设备根据一端为该第二设备的待测链路的链路时延,计算表征统计周期内向该第二设备所发送消息的消息时延作为综合消息时延;根据待测业务节点中综合消息时延超过预设时延的第二设备的数量,检测待测业务节点是否存在网络故障。应用本申请实施例提供的方案能提高对业务节点进行网络故障检测的准确度。

A network fault detection method and device

【技术实现步骤摘要】
一种网络故障检测方法及装置
本申请涉及网络
,特别是涉及一种网络故障检测方法及装置。
技术介绍
随着用户量增加、用户需求增长,通常基于包含多个业务节点的业务集群向用户提供业务。例如,上述业务集群可以是用于提供存储业务的存储集群等。其中,上述业务节点中可以包含多个用于提供业务的设备。然而受网络超时、网络连接闪断、网络状态震荡、数据丢包等因素的影响,上述业务集群可能会工作在亚健康的网络环境下,导致业务集群内各个业务节点出现网络故障,工作状态不稳定,例如,出现业务节点所提供的业务震荡、业务归零、业务节点内设备频繁报错等现象。严重的情况下,甚至可能会导致业务集群长时间不可用。为此需要对业务集群中各个业务节点进行网络故障检测。以上述业务集群为基于Ceph存储架构的存储集群为例,上述业务节点为存储节点。每一存储节点中同一PG(PlacementGroups,放置组)内的OSD(ObjectStoreDevice,对象存储设备)通过互发心跳包的方式检测对端OSD是否存在网络故障。假设,OSD1向OSD2发送Ping心跳包后,若20秒内没有接收到OSD2反馈的心跳回复,则认为OSD2存在网络故障。但是这种情况下,OSD1仅仅认为OSD2这单一一个OSD存在网络故障,不会认为整个业务节点存在网络故障,后续进行OSD隔离时,也仅仅隔离OSD2这一个OSD。所以,站在检测存储节点是否存在网络故障的角度来讲,应用上述方式进行网络故障检测准确率低。另外,这种情况下,OSD2所属的存储节点中还可能存在其他有网络故障的OSD,但是上述存储节点依然正常提供存储业务,可能会导致整个存储集群存在业务震荡,难以保证存储集群提供连续的存储业务。
技术实现思路
本申请实施例的目的在于提供一种网络故障检测方法及装置,以提高对业务节点进行网络故障检测的准确度。具体技术方案如下:第一方面,本申请实施例提供了一种网络故障检测方法,应用于业务集群内第一业务节点中的第一设备,所述方法包括:针对每一待测链路,计算表征统计周期内通过该待测链路所发送消息的消息时延,作为该待测链路的链路时延,其中,所述待测链路为:与所述第一业务节点不同的待测业务节点中各个第二设备与所述第一设备间的链路,所述消息时延为:向第二设备发送消息至接收到第二设备反馈响应间的时延;针对每一第二设备,根据一端为该第二设备的待测链路的链路时延,计算表征所述统计周期内向该第二设备所发送消息的消息时延,作为该第二设备的综合消息时延;根据所述待测业务节点中综合消息时延超过预设时延的第二设备的数量,检测所述待测业务节点是否存在网络故障。本申请的一个实施例中,所述针对每一待测链路,计算表征统计周期内通过该待测链路所发送消息的消息时延,作为该待测链路的链路时延,包括:针对每一待测链路,获得统计周期内通过该待测链路发送的每一消息的消息时延,计算所获得消息时延的平均值,作为该待测链路的链路时延。本申请的一个实施例中,所述每一消息的消息时延为:T2-T1-ΔT;其中,T1表示向第二设备发送消息的时间戳,T2表示接收到第二设备反馈响应的时间戳,ΔT表示第二设备接收到消息与第二设备生成响应之间的时间差。本申请的一个实施例中,所述针对每一第二设备,根据一端为该第二设备的待测链路的链路时延,计算表征所述统计周期内向该第二设备所发送消息的消息时延,作为该第二设备的综合消息时延,包括:针对每一第二设备,计算一端为该第二设备的各待测链路的链路时延的平均值,作为该第二设备的综合消息时延。本申请的一个实施例中,所述根据所述待测业务节点中综合消息时延超过预设时延的第二设备的数量,检测所述待测业务节点是否存在网络故障,包括:判断连续预设数量个统计周期内异常设备的数量与所述待测业务节点中第二设备的总数间的比值是否大于预设阈值,所述异常设备为:所述待测业务节点中综合消息时延超过预设时延的第二设备;若为是,确定所述待测业务节点存在网络故障。本申请的一个实施例中,所述网络故障检测方法还包括:在确定所述待测业务节点存在网络故障后,向业务集群的监控进程发送网络故障通知,以使得所述监控进程对所述待测业务节点中的所有第二设备进行业务隔离。第二方面,本申请实施例提供了一种网络故障检测装置,应用于业务集群内第一业务节点中的第一设备,所述装置包括:链路时延计算模块,用于针对每一待测链路,计算表征统计周期内通过该待测链路所发送消息的消息时延,作为该待测链路的链路时延,其中,所述待测链路为:与所述第一业务节点不同的待测业务节点中各个第二设备与所述第一设备间的链路,所述消息时延为:向第二设备发送消息至接收到第二设备反馈响应间的时延;综合时延计算模块,用于针对每一第二设备,根据一端为该第二设备的待测链路的链路时延,计算表征所述统计周期内向该第二设备所发送消息的消息时延,作为该第二设备的综合消息时延;网络故障检测模块,用于根据所述待测业务节点中综合消息时延超过预设时延的第二设备的数量,检测所述待测业务节点是否存在网络故障。本申请的一个实施例中,所述链路时延计算模块,具体用于针对每一待测链路,获得统计周期内通过该待测链路发送的每一消息的消息时延,计算所获得消息时延的平均值,作为该待测链路的链路时延。本申请的一个实施例中,所述每一消息的消息时延为:T2-T1-ΔT;其中,T1表示向第二设备发送消息的时间戳,T2表示接收到第二设备反馈响应的时间戳,ΔT表示第二设备接收到消息与第二设备生成响应之间的时间差。本申请的一个实施例中,所述综合时延计算模块,具体用于针对每一第二设备,计算一端为该第二设备的各待测链路的链路时延的平均值,作为该第二设备的综合消息时延。本申请的一个实施例中,所述网络故障检测模块,具体用于:判断连续预设数量个统计周期内异常设备的数量与所述待测业务节点中第二设备的总数间的比值是否大于预设阈值,所述异常设备为:所述待测业务节点中综合消息时延超过预设时延的第二设备;若为是,确定所述待测业务节点存在网络故障。本申请的一个实施例中,所述网络故障检测装置还包括:通知发送模块,用于在确定所述待测业务节点存在网络故障后,向业务集群的监控进程发送网络故障通知,以使得所述监控进程对所述待测业务节点中的所有第二设备进行业务隔离。第三方面,本申请实施例提供了一种电子设备,所述电子设备为业务集群内第一业务节点中的第一设备,所述电子设备包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现上述第一方面所述的方法步骤。第四方面,本申请实施例提供了一种机器可读存储介质,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现上述第一方面所述的方法步骤。由以上可见,应用本申请实施例提供的方案进行网络故障检测时,计算出每一待测链路的链路本文档来自技高网
...

【技术保护点】
1.一种网络故障检测方法,其特征在于,应用于业务集群内第一业务节点中的第一设备,所述方法包括:/n针对每一待测链路,计算表征统计周期内通过该待测链路所发送消息的消息时延,作为该待测链路的链路时延,其中,所述待测链路为:与所述第一业务节点不同的待测业务节点中各个第二设备与所述第一设备间的链路,所述消息时延为:向第二设备发送消息至接收到第二设备反馈响应间的时延;/n针对每一第二设备,根据一端为该第二设备的待测链路的链路时延,计算表征所述统计周期内向该第二设备所发送消息的消息时延,作为该第二设备的综合消息时延;/n根据所述待测业务节点中综合消息时延超过预设时延的第二设备的数量,检测所述待测业务节点是否存在网络故障。/n

【技术特征摘要】
1.一种网络故障检测方法,其特征在于,应用于业务集群内第一业务节点中的第一设备,所述方法包括:
针对每一待测链路,计算表征统计周期内通过该待测链路所发送消息的消息时延,作为该待测链路的链路时延,其中,所述待测链路为:与所述第一业务节点不同的待测业务节点中各个第二设备与所述第一设备间的链路,所述消息时延为:向第二设备发送消息至接收到第二设备反馈响应间的时延;
针对每一第二设备,根据一端为该第二设备的待测链路的链路时延,计算表征所述统计周期内向该第二设备所发送消息的消息时延,作为该第二设备的综合消息时延;
根据所述待测业务节点中综合消息时延超过预设时延的第二设备的数量,检测所述待测业务节点是否存在网络故障。


2.根据权利要求1所述的方法,其特征在于,所述针对每一待测链路,计算表征统计周期内通过该待测链路所发送消息的消息时延,作为该待测链路的链路时延,包括:
针对每一待测链路,获得统计周期内通过该待测链路发送的每一消息的消息时延,计算所获得消息时延的平均值,作为该待测链路的链路时延。


3.根据所述权利要求2所述的方法,其特征在于,
所述每一消息的消息时延为:T2-T1-ΔT;
其中,T1表示向第二设备发送消息的时间戳,T2表示接收到第二设备反馈响应的时间戳,ΔT表示第二设备接收到消息与第二设备生成响应之间的时间差。


4.根据权利要求1-3中任一项所述的方法,其特征在于,所述针对每一第二设备,根据一端为该第二设备的待测链路的链路时延,计算表征所述统计周期内向该第二设备所发送消息的消息时延,作为该第二设备的综合消息时延,包括:
针对每一第二设备,计算一端为该第二设备的各待测链路的链路时延的平均值,作为该第二设备的综合消息时延。


5.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述待测业务节点中综合消息时延超过预设时延的第二设备的数量,检测所述待测业务节点是否存在网络故障,包括:
判断连续预设数量个统计周期内异常设备的数量与所述待测业务节点中第二设备的总数间的比值是否大于预设阈值,所述异常设备为:所述待测业务节点中综合消息时延超过预设时延的第二设备;
若为是,确定所述待测业务节点存在网络故障。


6.一种网络故障检测装置...

【专利技术属性】
技术研发人员:李韧
申请(专利权)人:新华三大数据技术有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1