一种用于检查集群健康状态的方法和设备技术

技术编号:16644487 阅读:188 留言:0更新日期:2017-11-26 16:51
本申请的目的是提供一种用于检查集群健康状态的方法和设备,通过获取待检查的集群的相关信息;获取至少一个待检查的问题及其对应的检查规则;基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息,实现了对出现所述问题时对应的多个检查点的健康状况的监控,并提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度,同时也提高了对线上的分布式文件系统进行多检查点监控的实时性,并达到提前进行多个检查点进行报警的目的。

A method and device for checking the health status of clusters

This application is intended to provide a method and apparatus for checking cluster health status, through access to relevant information to be examined in the cluster; check rule acquisition at least one to check the problem and the corresponding relevant information; the cluster based on the monitoring data, by taking check with the relevant rules of the checkpoint from the cluster, and the monitoring data to obtain the results of polymerization processing; the processing result obtained corresponding to the problem based on the relevant information and generate the problem based on feedback and health warning information, to achieve the monitoring a plurality of inspection points corresponding to the emergence of the health problems, and improve the health status of each pre check point corresponding to the problem in the cluster the judgment accuracy, but also improve the distributed file system for multi line Check the real-time monitoring, and to achieve early inspection of multiple checkpoints for the purpose of alarm.

【技术实现步骤摘要】
一种用于检查集群健康状态的方法和设备
本申请涉及计算机领域,尤其涉及一种用于检查集群健康状态的技术。
技术介绍
在分布式集群报警系统中,随着用户设备的海量数据的暴增,分布式文件系统(DistributedFileSystem)的规模也在不断增长;但随着分布式文件系统所在集群的老化和业务的不断增长,各种问题层出不穷,且往往一个集群节点中的单个服务器出现的单点问题都有可能积累而导致很大的故障;然而当问题突发时依靠报警系统所在的平台进行报警,以唤醒维护人员进行调查并执行解决问题的方法可能会因为错过解决问题的最佳时间而引发故障。现有技术中,分布式集群报警系统分别对各个集群节点下的单个服务设备的硬件(例如,内存,硬盘或软件实体中的局部模块)和操作系统进行单点报警,在单点出现问题时进行报警,并将大量的报警由服务设备进行简单的异常报警信息的获取后统一报警给维护人员。由于现有技术中的分布式集群报警系统只在单点出现问题时进行报警,故在报警前若报警阈值设置过松有可能导致引发故障,而报警阈值设置过严会造成大量的误报;又由于现有技术中的分布式集群报警系统主要针对服务设备的硬件和操作系统的单点进行报警,并没有本文档来自技高网...
一种用于检查集群健康状态的方法和设备

【技术保护点】
一种用于检查集群健康状态的方法,其中,所述方法包括:获取待检查的集群的相关信息;获取至少一个待检查的问题及其对应的检查规则;基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息。

【技术特征摘要】
2016.03.31 CN 20161019449931.一种用于检查集群健康状态的方法,其中,所述方法包括:获取待检查的集群的相关信息;获取至少一个待检查的问题及其对应的检查规则;基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息。2.根据权利要求1所述的方法,其中,所述获取至少一个待检查的问题及其对应的检查规则包括:从问题规则库中获取至少一个待检查的问题及其对应的检查规则。3.根据权利要求1所述的方法,其中,所述获取待检查的集群的相关信息包括:基于用户提交的请求,获取待检查的集群的相关信息,其中,所述相关信息包括:集群位置信息和检查时间段。4.根据权利要求3所述的方法,其中,所述从所述集群中获取与所述检查规则相关的检查点的监控数据包括:基于所述集群位置信息查找所述集群,并获取所述集群中与所述检查规则相关的检查点;从所述集群的监控模块中获取所述检查时间段内相关所述检查点的监控数据。5.根据权利要求1所述的方法,其中,所述对所述监控数据进行聚合处理以获得处理结果包括:基于所述待检查的问题对应的检查规则对每一所述检查点的监控数据分别进行处理,以获取至少一个发生监控数据异常的所述检查点并反馈处理结果。6.根据权利要求1所述的方法,其中,所述问题的相关信息包括至少以下任一项:所述问题的出现时间、每一相关所述检查点的监控数据、出现所述问题时发生监控数据异常的所述检查点。7.根据权利要求1所述的方法,其中,所述方法还包括:创建问题规则库,所述问题规则库包括至少一个问题及其对应的检查规则;对所述问题规则库中的问题及其所对应的检查规则进行更新。8.根据权利要求7所述的方法,其中,所述对所述问题规则库中的问题及其所对应的检查规则进行更新包括:获取待检查的集群的相关信息、待更新问题及其初始监控阈值;基于所述初始监控阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则。9.根据权利要求8所述的方法,其中,所述初始监控阈值包括:所有所述检查点的监控数据的异常阈值和出现异常的所述检查点的权重阈值;所述基于所述初始监控阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点包括:基于所有所述检查点的监控数据的异常阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,并记录异常的所述检查点的权重超过所述权重阈值时对应的所述检查点,其中,所述检查点的权重基于异常的所述检查点的出现概率确定。10.根据权利要求8所述的方法,其中,所述基于所述监控数据确定并记录异常的所述检查点包括:判断所述检查点的监控数据是否超出异常阈值;若超出则确定并记录相应异常的所述检查点。11.根据权利要求7所述的方法,其中,所述对所述问题规则库中的问题及其所对应的检查规则进行更新包括:获取待更新问题,并从至少一个所述检查结果信息中获取所述待更新问题的出现时间点;获取所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则。12.根据权利要求8至11中任一项所述的方法,其中,所述检查点的相关信息包括以下至少任一项:所述检查点的监控数据的异常阈值、所述检查点的权重,其中,所述检查点的权重基于所述检查点的出现概率确定。13.根据权利要求8至12中任一项所述的方法,其中,所述在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率包括:在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段所记录的异常的所述检查点的出现概率确定当前所述设定时间段内的所述检查点的当前权重;基于所述检查点的当前权重和历史记录的异常的所述检查点的历史权重,更新每一所述检查点在所述待更新问题出现时的出现概率。14.根据权利要求1至13中任一项所述的方法,其中,所述检查点包括以下至少任一项:所述集群中的硬件设备、所述集群中的软件设备的局部模块。15.一种用于检查集群健康状态的设备,其中,所述设备包括:信息获取装置,用于获取待检查的集群的相关信息...

【专利技术属性】
技术研发人员:曹锋林江彬
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1