集群多维度异常监控方法、装置、设备及存储介质制造方法及图纸

技术编号:29583759 阅读:24 留言:0更新日期:2021-08-06 19:41
本说明书实施例提供了一种集群多维度异常监控方法、装置、设备及存储介质,该方法包括:获取集群性能信息以及集群中各节点的节点状态信息;根据所述集群性能信息生成第一监控子结果,并根据所述节点状态信息生成第二监控子结果;根据所述第一监控子结果和所述第二监控子结果确定所述集群的异常监控结果。本说明书实施例可以提高集群异常监控的精准性。

【技术实现步骤摘要】
集群多维度异常监控方法、装置、设备及存储介质
本说明书涉及集群监控
,尤其是涉及一种集群多维度异常监控方法、装置、设备及存储介质。
技术介绍
大规模集群的部署对于支撑业务的发展有巨大的帮助,随之而来也提升了应用系统的复杂度,对于集群的异常监控带来了巨大挑战。目前,大量集群仍然延用传统的单节点监控方法,然而,单节点的异常并不一定会对集群的正常服务造成影响。因此,需要一种针对集群的异常监控策略方法来综合评价集群的服务能力和告警策略,以提提高集群异常监控的精准性。
技术实现思路
本说明书实施例的目的在于提供一种集群多维度异常监控方法、装置、设备及存储介质,以提高集群异常监控的精准性。为达到上述目的,一方面,本说明书实施例提供了一种集群多维度异常监控方法,包括:获取集群性能信息以及集群中各节点的节点状态信息;根据所述集群性能信息生成第一监控子结果,并根据所述节点状态信息生成第二监控子结果;根据所述第一监控子结果和所述第二监控子结果确定所述集群的异常监控结果。本说明书的实施例中,所述根据所述集群性能信息生成第一监控子结果,包括:根据预设的分类算法处理所述集群性能信息,获得第一指定时间内的异常数据点数量;判断所述异常数据点数量是否大于设定的数量阈值;若所述异常数据点数量大于所述数量阈值,则据此生成第一监控子结果。本说明书的实施例中,所述根据所述节点状态信息生成第二监控子结果,包括:根据所述节点状态信息确定第一指定时间内的单节点异常率;本说明书的实施例中,所述根据所述节点状态信息生成第二监控子结果,包括:根据所述节点状态信息确定第一指定时间内的单节点异常率;将所述单节点异常率输入公式获得集群节点异常率;判断所述集群节点异常率是否大于设定异常率阈值;若所述集群节点异常率大于所述异常率阈值,则据此生成第二监控子结果;其中,r为集群节点异常率,M为第一指定时间内的异常节点总数,an为第一指定时间内第n个异常节点的权重系数,bn为第一指定时间内第n个异常节点的单节点异常率。本说明书的实施例中,所述权重系数中,当n=1时,a1根据公式确定;当n≥2时,an根据公式an=a1×qn-1确定;其中,a1为第一指定时间内第1个异常节点的权重系数,q为设定值,且q>1。本说明书的实施例中,所述根据所述节点状态信息确定第一指定时间内的单节点异常率,包括:从消息队列中读取目标节点的节点状态消息;所述节点状态消息由各节点定时发送至所述消息队列;判断是否在第二指定时间内从所述消息队列中读取到所述目标节点的节点状态消息;当在第二指定时间内未从所述消息队列中读取到所述目标节点的节点状态消息,或者在所述第二指定时间内读取到所述目标节点的包含指标异常数据的节点状态消息时,确认所述目标节点为异常节点;根据所述异常节点确定第一指定时间内的单节点异常率。本说明书的实施例中,所述根据所述第一监控子结果和所述第二监控子结果确定所述集群的异常监控结果,包括:根据公式确定所述集群的异常监控值;根据所述异常监控值确定所述集群的异常监控结果;其中,F为集群的异常监控结果,A1为第一监控子结果,A2为第二监控子结果。本说明书的实施例中,所述根据所述异常监控值确定所述集群的异常监控结果,包括:当F>1时,输出集群高等级报警;当0<F<1时,输出集群低等级报警;当F=0时,集群无报警输出。本说明书的实施例中,所述消息队列中每个消息包括:节点标识、节点IP、CPU使用率、内存使用率、进程状态、IO性能和存储空间状态。本说明书的实施例中,所述分类算法包括最邻近节点算法。另一方面,本说明书实施例还提供了一种集群多维度异常监控装置,包括:获取模块,用于获取集群性能信息以及集群中各节点的节点状态信息;生成模块,用于根据所述集群性能信息生成第一监控子结果,并根据所述节点状态信息生成第二监控子结果;确定模块,用于根据所述第一监控子结果和所述第二监控子结果确定所述集群的异常监控结果。另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法的指令。另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。由以上本说明书实施例提供的技术方案可见,本说明书实施例中不再仅基于单个节点信息进行异常监控,还考虑到了集群性能信息,即本说明书实施例综合了节点状态信息和集群性能信息进行异常监控,从而提高了集群异常监控的精准性,降低了集群产生大量的冗余报警信息的概率,减轻了集群运维压力和成本。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:图1示出了本说明书一些实施例中集群多维度异常监控方法的流程图;图2示出了本说明书一实施例中根据集群性能信息生成第一监控子结果的流程图;图3示出了本说明书一实施例中根据节点状态信息生成第二监控子结果的流程图;图4示出了本说明书一些实施例中集群多维度异常监控装置的结构框图;图5示出了本说明书一些实施例中计算机设备的结构框图。【附图标记说明】41、获取模块;42、生成模块;43、确定模块;502、计算机设备;504、处理器;506、存储器;508、驱动机构;510、输入/输出接口;512、输入设备;514、输出设备;516、呈现设备;518、图形用户接口;520、网络接口;522、通信链路;524、通信总线。具体实施方式为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。本说明书实施例涉及集群异常监控技术。其中,集群是指服务器集群。服务器集群是指将多台服务器集中起来一起进行同一种服务,在客户端看来就像是只有一台服务器。集群可以利用多个计算机进行并行计算从而获得很高的计算速度,也可以用多个计算机做备份,从而使得任何一个机器坏了整个系统仍可能正常运行。传统技术中对于集群的报警一般仅限于基于单台服务本文档来自技高网
...

【技术保护点】
1.一种集群多维度异常监控方法,其特征在于,包括:/n获取集群性能信息以及集群中各节点的节点状态信息;/n根据所述集群性能信息生成第一监控子结果,并根据所述节点状态信息生成第二监控子结果;/n根据所述第一监控子结果和所述第二监控子结果确定所述集群的异常监控结果。/n

【技术特征摘要】
1.一种集群多维度异常监控方法,其特征在于,包括:
获取集群性能信息以及集群中各节点的节点状态信息;
根据所述集群性能信息生成第一监控子结果,并根据所述节点状态信息生成第二监控子结果;
根据所述第一监控子结果和所述第二监控子结果确定所述集群的异常监控结果。


2.如权利要求1所述的集群多维度异常监控方法,其特征在于,所述根据所述集群性能信息生成第一监控子结果,包括:
根据预设的分类算法处理所述集群性能信息,获得第一指定时间内的异常数据点数量;
判断所述异常数据点数量是否大于设定的数量阈值;
若所述异常数据点数量大于所述数量阈值,则据此生成第一监控子结果。


3.如权利要求1所述的集群多维度异常监控方法,其特征在于,所述根据所述节点状态信息生成第二监控子结果,包括:
根据所述节点状态信息确定第一指定时间内的单节点异常率;
将所述单节点异常率输入公式获得集群节点异常率;
判断所述集群节点异常率是否大于设定异常率阈值;
若所述集群节点异常率大于所述异常率阈值,则据此生成第二监控子结果;
其中,r为集群节点异常率,M为第一指定时间内的异常节点总数,an为第一指定时间内第n个异常节点的权重系数,bn为第一指定时间内第n个异常节点的单节点异常率。


4.如权利要求3所述的集群多维度异常监控方法,其特征在于,所述权重系数中,当n=1时,a1根据公式确定;当n≥2时,an根据公式an=a1×qn-1确定;其中,a1为第一指定时间内第1个异常节点的权重系数,q为设定值,且q>1。


5.如权利要求3所述的集群多维度异常监控方法,其特征在于,所述根据所述节点状态信息确定第一指定时间内的单节点异常率,包括:
从消息队列中读取目标节点的节点状态消息;所述节点状态消息由各节点定时发送至所述消息队列;
判断是否在第二指定时间内从所述消息队列中读取到所述目标节点的节点状态消息;
当在第二指定时间内未从所述消息队列中读取到所述目标节...

【专利技术属性】
技术研发人员:李飞飞欧阳南杰
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1