一种集群节点监控方法和装置制造方法及图纸

技术编号:38755434 阅读:16 留言:0更新日期:2023-09-10 09:40
本发明专利技术公开了一种集群节点监控方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括监控多个集群中的节点;得到分别对应于多个节点的指标数据,并进行聚类分析,计算得到多个离群节点,以将每个离群节点的指标数据分别和预设的时间性指标阈值、数值性指标阈值进行对比,根据对比结果标记异常节点;根据每个节点的指标数据确定对应的数据走势,并调用训练好的第一模型分别对每个异常节点的指标数据进行计算,得到异常节点对应的异常原因,将所述异常原因和所述数据走势上传至指定处理端。从而,本发明专利技术的实施方式能够解决现有对分布式集群节点进行指标监控的效率低的技术问题。术问题。术问题。

【技术实现步骤摘要】
一种集群节点监控方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种集群节点监控方法和装置。

技术介绍

[0002]目前,分布式集群节点的应用十分普遍,为用户提供了方便、快捷的庞大数据协同处理服务,可以极大地满足用户对于业务的拆分处理需求。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]用户在享受便捷的分布式数据处理功能时,对分布式集群节点进行性能监控管理效率低的问题普遍存在。这是因为现有技术中均使用固定的阈值对集群节点进行异常识别,而人为设置的阈值本身就存在较高的误判风险;此外,现有对异常集群节点的运维处理中缺乏对相应故障原因的归纳总结和分析,从而导致相同的异常原因反复出现,造成了严重的服务资源浪费;另外,现有技术中缺乏对监控得到节点指标数据进行端到端的分析、展示的技术方案,而引入整套新的自动化监控、运维平台又会造成较高的经济负担。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种集群节点监控方法和装置,能够解决现有对分布式集群节点进行指标监控的效率低的技术问题。
[0006]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种集群节点监控方法,包括监控多个集群中的节点;得到分别对应于多个节点的指标数据,并进行聚类分析,计算得到多个离群节点,以将每个离群节点的指标数据分别和预设的时间性指标阈值、数值性指标阈值进行对比,根据对比结果标记异常节点;根据每个节点的指标数据确定对应的数据走势,并调用训练好的第一模型分别对每个异常节点的指标数据进行计算,得到异常节点对应的异常原因,将所述异常原因和所述数据走势上传至指定处理端。
[0007]可选地,调用训练好的第一模型分别对每个异常节点的指标数据进行计算之前,包括:
[0008]将每个非离群节点的指标数据分别和预设的时间性指标阈值、数值性指标阈值进行对比,得到对比结果,以对应标记异常节点。
[0009]可选地,调用训练好的第一模型分别对每个异常节点的指标数据进行计算之前,包括:
[0010]从异常数据库中选取多个异常记录,得到多个目标异常记录;
[0011]将每个目标异常记录包括的指标数据作为第一训练数据,并将每个目标异常记录包括的异常原因作为相应的第一目标值;
[0012]将每个第一训练数据输入至第一模型,并以相应的输出结果趋近于对应的第一目标值为目标,对所述第一模型进行训练;
[0013]得到训练好的第一模型。
[0014]可选地,将所述异常节点和对应的异常原因上传至指定处理端之后,包括:
[0015]接收指定处理端的反馈信息,根据所述反馈信息对每个异常节点相应的异常原因进行更新,
[0016]以确定每个异常节点分别对应的指标数据和更新后的异常原因,以生成相应的异常记录,并存储在异常数据库中。
[0017]可选地,得到分别对应于多个节点的指标数据,包括:
[0018]得到每个节点分别对应于多个指标属性的多个时序性指标数据,
[0019]其中,每个时序性指标数据包括分别对应于多个时间戳的多个指标数据点。
[0020]可选地,
[0021]将每个离群节点的指标数据分别和预设的时间性指标阈值、数值性指标阈值进行对比,根据对比结果标记异常节点,包括:
[0022]计算每个对应于离群节点的时序性指标数据相应的指标数据平均值;
[0023]对每个指标属性:
[0024]逐个判断每个离群节点对应的指标数据平均值是否大于相应的数值性指标阈值,
[0025]若否,则不标记所述离群节点,
[0026]若是,则在所述时序性指标数据中筛选得到超出所述数值性指标阈值的多个数据点,并计算相应的持续时间,以判断所述持续时间是否大于对应的时间性指标阈值,
[0027]如果是,则对所述离群节点进行异常标记,如果否,则不对所述离群节点进行标记。
[0028]可选地,根据对比结果标记异常节点之后,包括:
[0029]筛选得到不存在异常标记的多个离群节点,并标记为告警节点;
[0030]将每个非离群节点标记为正常节点;
[0031]以对多个节点的标记信息进行更新;
[0032]确定每个节点分别对应的多个时序性指标数据和更新后的标记信息,以生成相应的监控记录,并存储至监控数据库中。
[0033]可选地,根据每个节点的指标数据确定对应的数据走势,包括:
[0034]对每个指标属性:
[0035]确定每个节点分别对应的时序性指标数据,并逐个输入至训练好的第二模型,以计算得到相应的预测数据,并和对应的时序性指标数据进行融合,得到相应的时序性指标走势数据,并进行可视化展示。
[0036]可选地,逐个输入至训练好的第二模型之前,包括:
[0037]确定标准时间,将标准时间前指定时段作为第一时段,并将标准时间后指定时段作为第二时段;
[0038]在监控数据库中选取多个对应于第一时段的监控记录,作为多个第二训练数据;
[0039]确定每个第二训练数据分别对应的节点,作为第二目标节点;
[0040]在监控数据库中筛选得到每个第二目标节点对应于第二时段的监控记录,以作为相应的第二目标值;
[0041]以将每个第二训练数据输入至第二模型,以相应的输出趋近于对应的第二目标值为目标,对第二模型进行训练;
[0042]得到训练好的第二模型。
[0043]可选地,确定每个第二训练数据分别对应的节点,作为第二目标节点,包括:
[0044]确定全部的第二目标节点中包括指定比例的异常节点、告警节点和正常节点。
[0045]另外,本专利技术还提供了一种集群节点监控装置,包括监控模块,用于监控多个集群中的节点;标记模块,用于得到分别对应于多个节点的指标数据,并进行聚类分析,计算得到多个离群节点,以将每个离群节点的指标数据分别和预设的时间性指标阈值、数值性指标阈值进行对比,根据对比结果标记异常节点;处理模块,用于根据每个节点的指标数据确定对应的数据走势,并调用训练好的第一模型分别对每个异常节点的指标数据进行计算,得到异常节点对应的异常原因,将所述异常原因和所述数据走势上传至指定处理端。
[0046]上述专利技术中的一个实施例具有如下优点或有益效果:本专利技术通过监控多个集群中的节点,获得了后续对每个集群节点进行异常判别和性能走势预测的数据支撑;同时,本专利技术通过得到分别对应于多个节点的指标数据,并进行聚类分析,计算得到多个离群节点,以将每个离群节点的指标数据分别和预设的时间性指标阈值、数值性指标阈值进行对比,根据对比结果标记异常节点,达到利用轻量级的技术方案快速且准确地在全部的集群节点中筛选得到指标数值较高、持续时间较长的异常节点的技术效果;并且,本专利技术通过根据每个节点的指标数据确定对应的数据走势,并调用训练好的第一模型分别对每个异常节点的指标数据进行计算,得到异常节点对应的异常原因,将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集群节点监控方法,其特征在于,包括:监控多个集群中的节点;得到分别对应于多个节点的指标数据,并进行聚类分析,计算得到多个离群节点,以将每个离群节点的指标数据分别和预设的时间性指标阈值、数值性指标阈值进行对比,根据对比结果标记异常节点;根据每个节点的指标数据确定对应的数据走势,并调用训练好的第一模型分别对每个异常节点的指标数据进行计算,得到异常节点对应的异常原因,将所述异常原因和所述数据走势上传至指定处理端。2.根据权利要求1所述的方法,其特征在于,调用训练好的第一模型分别对每个异常节点的指标数据进行计算之前,包括:将每个非离群节点的指标数据分别和预设的时间性指标阈值、数值性指标阈值进行对比,得到对比结果,以对应标记异常节点。3.根据权利要求1所述的方法,其特征在于,调用训练好的第一模型分别对每个异常节点的指标数据进行计算之前,包括:从异常数据库中选取多个异常记录,得到多个目标异常记录;将每个目标异常记录包括的指标数据作为第一训练数据,并将每个目标异常记录包括的异常原因作为相应的第一目标值;将每个第一训练数据输入至第一模型,并以相应的输出结果趋近于对应的第一目标值为目标,对所述第一模型进行训练;得到训练好的第一模型。4.根据权利要求1所述的方法,其特征在于,将所述异常节点和对应的异常原因上传至指定处理端之后,包括:接收指定处理端的反馈信息,根据所述反馈信息对每个异常节点相应的异常原因进行更新,以确定每个异常节点分别对应的指标数据和更新后的异常原因,以生成相应的异常记录,并存储在异常数据库中。5.根据权利要求1所述的方法,其特征在于,得到分别对应于多个节点的指标数据,包括:得到每个节点分别对应于多个指标属性的多个时序性指标数据,其中,每个时序性指标数据包括分别对应于多个时间戳的多个指标数据点。6.根据权利要求5所述的方法,其特征在于,将每个离群节点的指标数据分别和预设的时间性指标阈值、数值性指标阈值进行对比,根据对比结果标记异常节点,包括:计算每个对应于离群节点的时序性指标数据相应的指标数据平均值;对每个指标属性:逐个判断每个离群节点对应的指标数据平均值是否大于相应的数值性指标阈值,若否,则不标记所述离群节点,若是,则在所述时序性指标数据中筛选得到超出所述数值性指标阈值的多个数据点,并计算相应的持续时间,以判断所述持续时间是否大于对应的时间性指标阈值,如果是,则对所述离群节点进行异常标记,如果否,则不对所述离群节点进行标记。
7.根据权利要求5所述的方法,其特征在于,根据对比结果标记异常节点之后,包括:筛选得到不存在异常标记的多个离群节点,并标记为告警节点;将每个非离群节点标记为正常节点;以对多个节点的标记信息进行更新;确定每个节点分别对应的多个时序性指标数据和更新后的标记信息,以生成相应的监控记录,并存储至监控数据库中。8.根据权利要求5所述的方法,其特征在于,根据每个节点的指标数据确定对应的数据走势,包括:对每个指标属性:确定每个节点分别对应的时序性指标数据,并逐个输入至训练好的第二模型,以计算得到相应的预测数据,并和对应的时序性指标数据进行融合,得到相应的时序性指标走势数据,并进行可视化展示。9.根据权利要求8所述的方法,其特征在于,逐个输入至训练好的第二模型之前,包括:确定标准时间,将标准时间前指定时段作为第一时段,并将标准时间后指定时段作为第二时段;在监控数据库中选取多个对应于第一时段的监控记录,作为多个第二训练数据;确定每个第二训练数据分别对应的节点,作为第二目标节点;在监控数据库中筛选得到每个第二目标节点对应于第二时段的监控记录,以作为相应的第二目标值;以将每个第二训练数据输入至第二模型,以相应的输出趋近于对应的第二目标值为目标,对第二模型进行训练;得到训练好的第二模型。10.根据权利要求9所述的方法,其特征在于,确定每个第二训练数据分别对应的节点,作为第二目标节点,包括:确定全部的第二目标节点中包括指定比例的异常节点、告警节点和正常节点。11.一种集群节点监控装置,其特征在于,包括:监控模块,用于监控多个集群中的节点;标记模块,用于得到分别对应于多个节点的指标数据,并进行聚类分析,计算得到多个离群节点,以将每个离群节点的指标数据分别和预设的时间性指标阈值、数值性指标阈值进行对比,根据对比结果标记异常节点;处理模块,用于根据每个节点的指标...

【专利技术属性】
技术研发人员:林雷杰陈晗
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1