降低集群震荡的方法及装置制造方法及图纸

技术编号:19938259 阅读:54 留言:0更新日期:2018-12-29 06:29
本发明专利技术实施例涉及分布式存储技术领域,提供一种降低集群震荡的方法及装置,所述方法包括:当第二存储节点上报第一存储节点异常时,监控节点获取第一时间,其中,第一时间为第一存储节点首次被上报异常的时间;当第三存储节点上报第一存储节点异常时,监控节点获取第二时间;监控节点依据第一时间和第二时间之间的时间间隔,计算第一存储节点异常的异常概率值;当异常概率值大于或等于监控节点产生的随机概率值时,标记第一存储节点异常,并发送第一存储节点异常信息至第一存储节点。与现有技术相比,避免了短时间内第一存储节点被频繁标识异常的情形发生,从而降低了分布式集群发生震荡的概率,提高了分布式集群的稳定性。

【技术实现步骤摘要】
降低集群震荡的方法及装置
本专利技术实施例涉及分布式存储
,具体而言,涉及一种降低集群震荡的方法及装置。
技术介绍
分布式集群是一种高性能、高可靠性、高可扩展性的分布式存储系统。分布式集群主要的服务部分分为监控节点和存储节点,监控节点和存储节点依靠两者之间的心跳进行通信,在面对异常情况,如网络丢包、网络时延及硬盘时延时,存储节点会频繁地被监控节点标记异常,从而反复停止和启动,导致分布式集群内部反复更新数据,这样就会引起分布式集群的震荡,导致分布式集群无法对外提供服务、客户业务中断。
技术实现思路
本专利技术实施例的目的在于提供一种降低集群震荡的方法及装置,用以提高分布式集群的稳定性。为了实现上述目的,本专利技术实施例采用的技术方案如下:第一方面,本专利技术实施例提供了一种降低集群震荡的方法,应用于分布式集群中的监控节点,所述监控节点与所述分布式集群中至少三个存储节点均通信,所述至少三个存储节点包括第一存储节点、第二存储节点和第三存储节点,所述方法包括:当所述第二存储节点上报所述第一存储节点异常时,所述监控节点获取第一时间,其中,所述第一时间为所述第一存储节点启动后首次被上报异常的时间;当所述第三存储节点上报所述第一存储节点异常时,所述监控节点获取第二时间;所述监控节点依据所述第一时间和所述第二时间之间的时间间隔,计算所述第一存储节点异常的异常概率值;当所述异常概率值大于或等于所述监控节点产生的随机概率值时,标记所述第一存储节点异常,并发送第一存储节点异常信息至所述第一存储节点。本专利技术实施例还提供了一种降低集群震荡的装置,应用于分布式集群中的监控节点,所述监控节点与所述分布式集群中的至少三个存储节点均通信,所述至少三个存储节点包括第一存储节点、第二存储节点和第三存储节点,所述装置包括第一时间获取模块、第二时间获取模块、异常概率值计算模块和异常标记模块。其中,第一时间获取模块用于当所述第二存储节点上报所述第一存储节点异常时,所述监控节点获取第一时间,其中,所述第一时间为所述第一存储节点启动后首次被上报异常的时间;第二时间获取模块用于当所述第三存储节点上报所述第一存储节点异常时,所述监控节点获取第二时间;异常概率值计算模块用于所述监控节点依据所述第一时间和所述第二时间之间的时间间隔,计算所述第一存储节点异常的异常概率值;异常标记模块用于当所述异常概率值大于或等于所述监控节点产生的随机概率值时,标记所述第一存储节点异常,并发送第一存储节点异常信息至所述第一存储节点。相对现有技术,本专利技术实施例提供的一种降低集群震荡的方法及装置,当第一存储节点被分布式集群中的其它存储节点上报异常时,监控节点依据第一存储节点启动后首次被报异常与本次被报异常的时间间隔来计算第一存储节点的异常概率值,再根据该异常概率值与监控节点产生的随机概率值之间的大小关系确定是否标记第一存储节点异常,只有当异常概率值大于或等于随机概率值时才标记第一存储节点异常,避免了短时间内第一存储节点被频繁标识异常的情形发生,从而降低了分布式集群发生震荡的概率,提高了分布式集群的稳定性。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本专利技术实施例提供的分布式集群的方框示意图。图2示出了本专利技术实施例提供的分布式集群中监控节点和存储节点的连接关系图。图3示出了本专利技术实施例提供的降低集群震荡的方法的应用示例图。图4示出了本专利技术实施例提供的降低集群震荡的方法流程图。图5示出了本专利技术实施例提供的概率函数示意图。图6示出了本专利技术实施例提供的第一应用示例图。图7示出了本专利技术实施例提供的第二应用示例图。图8示出了本专利技术实施例提供的第三应用示例图。图9示出了本专利技术实施例提供的主机的方框示意图。图10示出了本专利技术实施例提供的降低集群震荡的装置的方框示意图。图标:10-主机;11-监控节点;12-第一存储节点;13-第二存储节点;14-第三存储节点;101-处理器;102-存储器;103-总线;104-通信接口;200-降低集群震荡的装置;201-第一时间获取模块;202-第二时间获取模块;203-异常概率值计算模块;204-异常标记模块;205-执行模块。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本专利技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。请参照图1,图1示出了本专利技术实施例提供的分布式集群的方框示意图。分布式集群与客户端通信连接,用户通过客户端对分布式集群进行访问。分布式集群包括多个主机10,例如,主机1、主机2、主机3等等,多个主机10之间直接或间接的通信连接。每个主机10上均配置有一个监控节点11和至少一个存储节点,每个主机10上存储节点的数量由用户根据自身需求及该主机10上的磁盘数量灵活设置。请参照图2,分布式集群中的每个监控节点11与该分布式集群中所有的存储节点(例如,存储节点1、存储节点2、存储节点3等等)均通信,每个主机10上的监控节点11均负责监控分布式集群中所有的存储节点的工作状态,存储节点用于存储用户访问的数据。分布式集群中所有的存储节点可以包括第一存储节点12、第二存储节点13、第三存储节点14等,也就是说,分布式集群中每个监控节点11与第一存储节点12、第二存储节点13、第三存储节点14等均通信,监控节点11负责监控第一存储节点12、第二存储节点13、第三存储节点14等的工作状态,第一存储节点12、第二存储节点13、第三存储节点14等均用于存储数据。在本专利技术实施例中,存储节点把检测到的可能存在问题的存储节点上报给监控节点11,由监控节点11决定是否标记该可能存在问题的存储节点异常,具体来说,监控节点11依据该可能存在问题的存储节点两次被上报异常的时间间隔来确定是否将该可能存在问题的存储节点标记为异常,具体的异常标记方法请参照第一实施例。上报异常的存储节点和可能存在问题的存储节点可以配置于同一主机10上,也可以配置于至少两个主机10上。也就是说,第一存储节点12被第二存储节点13和第三存储节点14上报异常,第一存储节点12、第二存储节点13和第三存储节点14可以均配置于主机1上,也可以配置于主机1、主机2和主机3中的至少两个上。例如,请参照图3本文档来自技高网...

【技术保护点】
1.一种降低集群震荡的方法,其特征在于,应用于分布式集群中的监控节点,所述监控节点与所述分布式集群中的至少三个存储节点均通信,所述至少三个存储节点包括第一存储节点、第二存储节点和第三存储节点,所述方法包括:当所述第二存储节点上报所述第一存储节点异常时,所述监控节点获取第一时间,其中,所述第一时间为所述第一存储节点启动后首次被上报异常的时间;当所述第三存储节点上报所述第一存储节点异常时,所述监控节点获取第二时间;所述监控节点依据所述第一时间和所述第二时间之间的时间间隔,计算所述第一存储节点异常的异常概率值;当所述异常概率值大于或等于所述监控节点产生的随机概率值时,标记所述第一存储节点异常,并发送第一存储节点异常信息至所述第一存储节点。

【技术特征摘要】
1.一种降低集群震荡的方法,其特征在于,应用于分布式集群中的监控节点,所述监控节点与所述分布式集群中的至少三个存储节点均通信,所述至少三个存储节点包括第一存储节点、第二存储节点和第三存储节点,所述方法包括:当所述第二存储节点上报所述第一存储节点异常时,所述监控节点获取第一时间,其中,所述第一时间为所述第一存储节点启动后首次被上报异常的时间;当所述第三存储节点上报所述第一存储节点异常时,所述监控节点获取第二时间;所述监控节点依据所述第一时间和所述第二时间之间的时间间隔,计算所述第一存储节点异常的异常概率值;当所述异常概率值大于或等于所述监控节点产生的随机概率值时,标记所述第一存储节点异常,并发送第一存储节点异常信息至所述第一存储节点。2.如权利要求1所述的方法,其特征在于,所述依据所述第一时间和所述第二时间之间的时间间隔,计算所述第一存储节点的异常概率值的步骤,包括:依据所述第一时间和所述第二时间之间的时间间隔,利用概率函数p(t)=et-w,计算出所述第一存储节点的异常概率值,其中,p为所述第一存储节点的异常概率值,w为预设时间,t为所述第一时间和所述第二时间之间的时间间隔。3.如权利要求1所述的方法,其特征在于,所述分布式集群包括多个主机,所述多个主机通信连接,所述第一存储节点、所述第二存储节点和所述第三存储节点均配置于同一主机。4.如权利要求1所述的方法,其特征在于,所述分布式集群包括多个主机,所述多个主机通信连接,所述第一存储节点、所述第二存储节点和所述第三存储节点配置于至少两个主机。5.如权利要求1所述的方法,其特征在于,所述方法还包括:当所述第一存储节点在预设时间范围内接收到的所述第一存储节点异常信息的数量超过预设阈值时,所述第一存储节点重启或停止工作。6.一种降低集群震...

【专利技术属性】
技术研发人员:刘庆典
申请(专利权)人:新华三技术有限公司成都分公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1