一种网络故障检测方法及装置制造方法及图纸

技术编号：23938310 阅读：18 留言：0更新日期：2020-04-25 04:01

本申请实施例提供了一种网络故障检测方法及装置，应用于业务集群内第一业务节点中的第一设备，包括：针对各待测链路计算表征统计周期内通过该待测链路所发送消息的消息时延作为链路时延，待测链路为与第一业务节点不同的待测业务节点中各个第二设备与第一设备间的链路，消息时延为向第二设备发送消息至接收到第二设备反馈响应间的时延；针对每一第二设备根据一端为该第二设备的待测链路的链路时延，计算表征统计周期内向该第二设备所发送消息的消息时延作为综合消息时延；根据待测业务节点中综合消息时延超过预设时延的第二设备的数量，检测待测业务节点是否存在网络故障。应用本申请实施例提供的方案能提高对业务节点进行网络故障检测的准确度。

A network fault detection method and device

全部详细技术资料下载

【技术实现步骤摘要】
一种网络故障检测方法及装置
本申请涉及网络
，特别是涉及一种网络故障检测方法及装置。
技术介绍
随着用户量增加、用户需求增长，通常基于包含多个业务节点的业务集群向用户提供业务。例如，上述业务集群可以是用于提供存储业务的存储集群等。其中，上述业务节点中可以包含多个用于提供业务的设备。然而受网络超时、网络连接闪断、网络状态震荡、数据丢包等因素的影响，上述业务集群可能会工作在亚健康的网络环境下，导致业务集群内各个业务节点出现网络故障，工作状态不稳定，例如，出现业务节点所提供的业务震荡、业务归零、业务节点内设备频繁报错等现象。严重的情况下，甚至可能会导致业务集群长时间不可用。为此需要对业务集群中各个业务节点进行网络故障检测。以上述业务集群为基于Ceph存储架构的存储集群为例，上述业务节点为存储节点。每一存储节点中同一PG(PlacementGroups，放置组)内的OSD(ObjectStoreDevice，对象存储设备)通过互发心跳包的方式检测对端OSD是否存在网络故障。假设，OSD1向OSD2发送Ping心跳包后，若20秒内没有接收到OSD2反馈的心跳回复，则认为OSD2存在网络故障。但是这种情况下，OSD1仅仅认为OSD2这单一一个OSD存在网络故障，不会认为整个业务节点存在网络故障，后续进行OSD隔离时，也仅仅隔离OSD2这一个OSD。所以，站在检测存储节点是否存在网络故障的角度来讲，应用上述方式进行网络故障检测准确率低。另外，这种情况下，OSD2所属的存储节点中还可能存在其他有网络故障...

【技术保护点】
1.一种网络故障检测方法，其特征在于，应用于业务集群内第一业务节点中的第一设备，所述方法包括：/n针对每一待测链路，计算表征统计周期内通过该待测链路所发送消息的消息时延，作为该待测链路的链路时延，其中，所述待测链路为：与所述第一业务节点不同的待测业务节点中各个第二设备与所述第一设备间的链路，所述消息时延为：向第二设备发送消息至接收到第二设备反馈响应间的时延；/n针对每一第二设备，根据一端为该第二设备的待测链路的链路时延，计算表征所述统计周期内向该第二设备所发送消息的消息时延，作为该第二设备的综合消息时延；/n根据所述待测业务节点中综合消息时延超过预设时延的第二设备的数量，检测所述待测业务节点是否存在网络故障。/n

【技术特征摘要】
1.一种网络故障检测方法，其特征在于，应用于业务集群内第一业务节点中的第一设备，所述方法包括：
针对每一待测链路，计算表征统计周期内通过该待测链路所发送消息的消息时延，作为该待测链路的链路时延，其中，所述待测链路为：与所述第一业务节点不同的待测业务节点中各个第二设备与所述第一设备间的链路，所述消息时延为：向第二设备发送消息至接收到第二设备反馈响应间的时延；
针对每一第二设备，根据一端为该第二设备的待测链路的链路时延，计算表征所述统计周期内向该第二设备所发送消息的消息时延，作为该第二设备的综合消息时延；
根据所述待测业务节点中综合消息时延超过预设时延的第二设备的数量，检测所述待测业务节点是否存在网络故障。

2.根据权利要求1所述的方法，其特征在于，所述针对每一待测链路，计算表征统计周期内通过该待测链路所发送消息的消息时延，作为该待测链路的链路时延，包括：
针对每一待测链路，获得统计周期内通过该待测链路发送的每一消息的消息时延，计算所获得消息时延的平均值，作为该待测链路的链路时延。

3.根据所述权利要求2所述的方法，其特征在于，
所述每一消息的消息时延为：T2-T1-ΔT；
其中，T1表示向第二设备发送消息的时间戳，T2表示接收到第二设备反馈响应的时间戳，ΔT表示第二设备接收到消息与第二设备生成响应之间的时间差。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述针对每一第二设备，根据一端为该第二设备的待测链路的链路时延，计算表征所述统计周期内向该第二设备所发送消息的消息时延，作为该第二设备的综合消息时延，包括：
针对每一第二设备，计算一端为该第二设备的各待测链路的链路时延的平均值，作为该第二设备的综合消息时延。

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述根据所述待测业务节点中综合消息时延超过预设时延的第二设备的数量，检测所述待测业务节点是否存在网络故障，包括：
判断连续预设数量个统计周期内异常设备的数量与所述待测业务节点中第二设备的总数间的比值是否大于预设阈值，所述异常设备为：所述待测业务节点中综合消息时延超过预设时延的第二设备；
若为是，确定所述待测业务节点存在网络故障。

6.一种网络故障检测装置...

【专利技术属性】
技术研发人员：李韧，
申请(专利权)人：新华三大数据技术有限公司，
类型：发明
国别省市：河南;41

全部详细技术资料下载我是这个专利的主人