分布式存储系统节点状态监控方法、中心节点及系统技术方案

技术编号:13605585 阅读:51 留言:0更新日期:2016-08-28 04:23
本发明专利技术实施例提供一种分布式存储系统节点状态监控方法。所述方法包括以下步骤:中心节点为工作节点配置心跳包发送的第一时间间隔;所述中心节点接收所述工作节点发送的心跳包,获取所述工作节点的工作状态参数;所述中心节点将所述工作状态参数与预定阈值比较,当所述工作状态参数大于或等于预定阈值时,为所述工作节点配置心跳包发送的第二时间间隔,所述第二时间间隔大于第一时间间隔。此外,提供了相应的中心节点和系统,通过所述方法、中心节点和系统,解决了在业务负载过重和网络情况不佳等情况下心跳异常的问题,实现了根据实际的负载情况和网络不佳情况时自动调整心跳间隔,大幅提升了分布式存储集群可靠性和可用性。

【技术实现步骤摘要】

本专利技术实施例涉及计算机网络存储领域,尤其涉及一种分布式存储系统节点状态监控方法、中心节点及系统
技术介绍
分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。分布式存储的系统架构需要心跳机制的支持,以确认各节点的状态,并对异常的状态及时处理。心跳间隔设定的过大,则工作正常的节点无法对处于异常状态的节点及时做出处理,例如判定离线,启动数据恢复或者数据迁移等。相反心跳间隔设定的过小,则对于网络的异常抖动,对于业务负载过重,无法及时响应心跳消息的场景而做出错误的判断。降低存储系统的可靠性。目前业内的分布式存储系统对于心跳的设置都是设定一个固定值,无法根据复杂的网络环境进行自动的动态配置,例如不能根据存储系统的整体负载变化以及节点的工作状态等实际情况,自动地调整心跳间隔。心跳间隔的过长或过短都会使得判断的错误,导致监控结果的不真实准确,造成系统资源浪费或吃紧,从而使得节点工作状态不稳定,影响分布式存储系统整体的可靠性和可用性。
技术实现思路
为了解决现有技术中心跳间隔的值固定,不能应付现实操作中的复杂情况,导致监控不准确的问题,本专利技术实施例提供一种分布式存储系统节点状态监控方法、中心节点及系统。本专利技术实施例一方面提供一种分布式存储系统节点状态监控方法,所述分布式存储系统包括中心节点和多个工作节点,所述方法包括以下步骤:所述中心节点为所述多个工作节点配置心跳包发送的第一时间间隔;所述中心节点接收所述多个工作节点发送的心跳包,获取所述多个工作节点的工作状态参数;所述中心节点将所述工作状态参数与预定阈值比较:当所述工作状态参数大于或等于预定阈值时,为所述多个工作节点配置心跳包发送的第二时间间隔,所述第二时间间隔大于第一时间间隔。本专利技术实施例另一方面提供一种用于分布式存储系统的中心节点,包括:用于配置心跳包发送时间间隔的时间间隔配置单元、工作状态参数解析单元、比较单元,其中,所述时间间隔配置单元用于为所述分布式存储系统中的多个工作节点配置心跳包发送的第一时间间隔;所述工作状态参数解析单元用于接收所述多个工作节点发送的心跳包,获取所述多个工作节点的工作状态参数;所述比较单元用于将所述工作状态参数与预定阈值比较,将比较结果发送给所述时间间隔配置单元;所述时间间隔配置单元用于接收所述比较结果,当所述工作状态参数大于或等于预定阈值时,为所述多个工作节点配置心跳包发送的第二时间间隔,所述第二时间间隔大于第一时间间隔。本专利技术实施例另一方面提供一种分布式存储系统,包括:中心节点和多个工作节点,其特征在于,所述中心节点为根据本专利技术实施例提供的用于分布式存储系统的中心节点。本专利技术实施例提供的一种可以广泛适用于各种分布式存储系统的自动调整心跳间隔的方法,解决了在业务负载过重和网络情况不佳等情况下心跳异常的问题,实现了根据实际的负载情况和网络不佳情况时自动调整心跳间隔,大幅提升了分布式存储集群可靠性和可用性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术分布式存储系统节点状态监控方法实施例流程图;图2为当外部负载过大时,本专利技术分布式存储系统节点状态监控方法实施例应用场景图;图3为当节点出现故障时,本专利技术分布式存储系统节点状态监控方法实施例应用场景图;图4为当节点磁盘容量出现偏差时,本专利技术分布式存储系统节点状态监控方法实施例应用场景图;图5为本专利技术用于分布式存储系统的中心节点实施例结构示意图;具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。分布式存储系统中一般包括两类节点,一类为工作节点,工作节点为多个,另一类为中心节点,也即总控节点。中心节点,该节点是系统的中心控制节点,主要用于维护数据分布信息,执行工作机管理,数据定位,故障检测和恢复,负载均衡等全局调度工作。系统中的所有资源都存储在工作节点上。工作节点通过心跳(Heartbeat,定时发送)机制将节点负载相关的信息,如CPU,内存,磁盘,网络等资源使用率,读写次数及读写数据量等发送给中心节点,并接受中心节点统一管理。所谓心跳机制,是收发心跳数据包(简称心跳包)的机制,心跳包是遵循心跳数据包协议定义的、周期性、循环发送的数据包,用于判断网络节点是否“存活”,即是否还在连接。实际运用时,首先需设计各网络节点都支持心跳数据包协议,各网络节点按照一定心跳机制向其它网络节点发送心跳包,用于判断对方(设备、进程或其它网元)是否正常运行,如果在指定时间段内未收到对方响应,即没有收到对方发回的心跳包,则认为与对方的连接已经中断,这样可检测TCP的异常断开,如突然断电、网络中断。虽然我们知道TCP是面向连接的,但是如果遇见拔网线,断电等物理层的一些特殊情况,TCP还是没有办法快速的知道异常,所以心跳包的使用可以帮我们解决这些问题。目前业内分布式存储系统对于心跳的设置都是设定为一个固定值,心跳间隔设定的过大,则工作正常的节点无法对处于异常状态的节点及时做出处理,例如判定离线,启动数据恢复或者数据迁移等。相反心跳间隔设定的过小,则对于网络的异常抖动,对于业务负载过重,无法及时响应心跳消息的场景而做出错误的判断。为此,本专利技术实施例提供了一种分布式存储系统节点状态监控方法。如图1所示,本专利技术实施例提供的一种分布式存储系统节点状态监控方法的流程图,所述方法包括以下步骤:S101:中心节点为多个工作节点配置心跳包发送的第一时间间隔;其中第一时间间隔为心跳包的初始心跳时间间隔,各节点以该时间间隔定期发送心跳包。S102:中心节点接收多个工作节点发送的心跳包,获取多个工作节点的工作状态参数;其中中心节点通过系统配置好的固定的时间间隔周期性获取多个工作节点的工作状态参数。其周期设置可根据历史统计数据,比如业务负载突然增大或突然变小发生的时间周期,节点出现故障的时间规律性等综合因素进行
考虑,以免设置过大或过小。S103:中心节点将所述工作状态参数与预定阈值比较:系统中的预定阈值可以以配置文件形式存储在系统中,方便中心节点获取。S104:当所述工作状态参数大于或等于预定阈值时,为多个工作节点配置心跳包发送的第二时间间隔,所述第二时间间隔大于第一时间间隔。其中,中心节点为多个工作节点配置心跳包发送的第二时间间隔的同时,还会向各节点发送的消息,所述消息基于TCP的消息,消息包括消息头和消息体,例如消息体内容为“延长心跳间隔”其可根据本领域本文档来自技高网
...

【技术保护点】
一种分布式存储系统节点状态监控方法,所述分布式存储系统包括中心节点和多个工作节点,所述方法包括以下步骤:所述中心节点为所述多个工作节点配置心跳包发送的第一时间间隔;所述中心节点接收所述多个工作节点发送的心跳包,获取所述多个工作节点的工作状态参数;所述中心节点将所述工作状态参数与预定阈值比较:当所述工作状态参数大于或等于预定阈值时,为所述多个工作节点配置心跳包发送的第二时间间隔,所述第二时间间隔大于第一时间间隔。

【技术特征摘要】
1.一种分布式存储系统节点状态监控方法,所述分布式存储系统包括中心节点和多个工作节点,所述方法包括以下步骤:所述中心节点为所述多个工作节点配置心跳包发送的第一时间间隔;所述中心节点接收所述多个工作节点发送的心跳包,获取所述多个工作节点的工作状态参数;所述中心节点将所述工作状态参数与预定阈值比较:当所述工作状态参数大于或等于预定阈值时,为所述多个工作节点配置心跳包发送的第二时间间隔,所述第二时间间隔大于第一时间间隔。2.根据权利要求1所述的方法,其特征在于,所述工作状态参数包括所述多个工作节点组成的集群的业务负载参数,所述预定阈值包括业务负载阈值;所述中心节点将所述业务负载参数与业务负载阈值比较:当所述业务负载参数大于或等于业务负载阈值时,为所述多个工作节点配置心跳包发送的第二时间间隔,所述第二时间间隔大于第一时间间隔;当所述业务负载参数小于业务负载阈值时,为所述多个工作节点配置心跳包发送的第三时间间隔,所述第三时间间隔小于第一时间间隔。3.根据权利要求1所述的方法,其特征在于,所述工作状态参数包括所述多个工作节点中停发心跳包的工作节点的故障数量,所述预定阈值包括节点故障数量阈值;所述中心节点将所述故障数量与节点故障数量阈值比较:当所述故障数量大于或等于节点故障数量阈值时,为所述多个工作节点配置心跳包发送的第二时间间隔,所述第二时间间隔大于第一时间间隔;当所述故障数量小于节点故障数量阈值时,维持所述多个工作节点发送心跳包的第一时间间隔。4.根据权利要求1所述的方法,其特征在于,所述工作状态参数包括所述多个工作节点组成的集群的集群平均剩余容量百分比和所述多个工作节点的磁盘剩余容量百分比,所述预定阈值包括磁盘容量偏差阈值;所述中心节点将所述磁盘剩余容量百分比与所述集群平均剩余容量百分比相比获得偏差:当所述偏差大于或等于磁盘容量偏差阈值时,为所述多个工作节点配置心跳包发送的第二时间间隔,所述第二时间间隔大于第一时间间隔;当所述偏差小于磁盘容量偏差阈值时,维持所述多个工作节点发送心跳包的第一时间间隔。5.一种用于分布式存储系统的中心节点,包括:用于配置心跳包发送时间间隔的时间间隔配置单元、工作状态参数解析单元、比较单元,其中,所述时间间隔配置单元用于为所述分布式存储系统中的多个工作节点配置心跳包发送的第一时间间隔;所述工作状态参数解析单元用于接收所述多个工作节点...

【专利技术属性】
技术研发人员:陈积
申请(专利权)人:乐视云计算有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1