监控方法、装置和计算机可读存储介质制造方法及图纸

技术编号:34859572 阅读:16 留言:0更新日期:2022-09-08 08:02
本公开涉及一种监控方法、装置和计算机可读存储介质,涉及通信技术领域。本公开的方法包括:获取当前集群中多项资源指标的当前数据和预测数据;根据多项资源指标的当前数据和预测数据,确定当前集群的资源利用是否异常;在当前集群的资源利用异常的情况下,确定相邻的一个或多个集群的资源利用是否异常;在相邻的一个或多个集群中存在资源利用正常的集群的情况下,利用资源利用正常的集群中的监控组件对当前集群进行监控。对当前集群进行监控。对当前集群进行监控。

【技术实现步骤摘要】
监控方法、装置和计算机可读存储介质


[0001]本公开涉及通信
,特别涉及一种监控方法、装置和计算机可读存储介质。

技术介绍

[0002]随着边缘计算的需要,边缘节点有限资源下部署应用和监控应用状态具有迫切需要一个轻量可靠易部署的运维和管理平台。K3s基于具备轻量、易于部署、应用部署与Kubernetes完全一样的特点,成为目前边缘节点集群的主要解决方案之一。K3s自身只要60兆的二进制文件和200兆的离线数据包,K3s对于运行平台的要求非常低廉并且启动迅速。
[0003]Kubernetes集群中可以使用监控组件(例如,Prometheus)收集资源指标的数据,并生成告警信息或进行存储等,实现对集群的监控。Kubernetes集群中的监控组件可以在K3s中应用。

技术实现思路

[0004]专利技术人发现:由于K3s资源有限,设备离散的分布且在不同机房、厂区、不同的地理区域造成的集群网络不稳定,负载达到波峰等网络堵塞情况,导致监控组件获取资源指标失败,生成告警信息。运维人员根据告警信息难以判断是否重启集群,实际上网络短期堵塞不影响容器内其他应用服务正常运行,直接重启会导致服务中断且资源浪费,容器级别内部的日志数据和指标也会直接丢失。
[0005]本公开所要解决的一个技术问题是:如何更加准确和有效的对K3s集群进行监控。
[0006]根据本公开的一些实施例,提供的一种监控方法,包括:获取当前集群中多项资源指标的当前数据和预测数据;根据多项资源指标的当前数据和预测数据,确定当前集群的资源利用是否异常;在当前集群的资源利用异常的情况下,确定相邻的一个或多个集群的资源利用是否异常;在相邻的一个或多个集群中存在资源利用正常的集群的情况下,利用资源利用正常的集群中的监控组件对当前集群进行监控。
[0007]在一些实施例中,根据多项资源指标的当前数据和预测数据,确定当前集群的资源利用是否异常包括:根据各项资源指标的当前数据和各项资源指标对应的阈值,确定可用性评估值;根据各项资源指标的预测数据,确定异常评估值;根据可用性评估值和异常评估值,确定总评估值;根据总评估值和预设评估值的对比,确定当前集群的资源利用是否异常。
[0008]在一些实施例中,各项资源指标的当前数据包括:各项资源指标的剩余比例,根据各项资源指标的当前数据和各项资源指标对应的阈值,确定可用性评估值包括:针对每项资源指标,在该资源指标的剩余比例大于该资源指标对应的阈值的情况下,确定该资源指标可用,在该资源指标的剩余比例小于或等于该资源指标对应的阈值的情况下,确定该资源指标不可用;在各项资源指标均可用的情况下,确定可用性评估值为第一预设值;在各项资源指标均不可用的情况下,确定可用性评估值为第二预设值。
[0009]在一些实施例中,每项资源指标的剩余比例采用以下方法确定:将该项资源指标
的可用量减去该项资源指标的请求量,得到该项资源指标的剩余量;将该项资源指标的剩余量与该项资源指标的可用量的比值,作为该项资源指标的剩余比例;其中,各项资源指标包括:CPU资源指标、随机存取存储器RAM资源指标和硬盘资源指标。
[0010]在一些实施例中,每项资源指标的预测数据是根据该项资源指标的预测请求量和该项资源指标在上一周期内的请求量的差距确定的,该项资源指标的预测请求量和该项资源指标在上一周期内的请求量的差距越大,该项资源指标的预测数据越小。
[0011]在一些实施例中,根据各项资源指标的预测数据,确定异常评估值包括:根据各项资源指标对应的权重,将各项资源指标的预测数据进行加权求和;根据加权求和的结果确定异常评估值,其中,各项资源指标的预测数据越小,异常评估值越小。
[0012]在一些实施例中,每项资源指标对应的权重根据该项资源指标的数据波动情况和重要性中至少一项确定,该项资源指标的数据波动越大,对应的权重越小,该项资源指标的重要性越高,对应的权重越大。
[0013]在一些实施例中,各项资源指标包括:CPU资源指标、随机存取存储器RAM资源指标、硬盘资源指标、应用程序接口API资源指标和网络资源指标。
[0014]在一些实施例中,利用资源利用正常的集群中的监控组件对当前集群进行监控包括:修改资源利用正常的集群中的监控组件获取待监控信息的端口为当前集群中的端口;建立资源利用正常的集群与当前集群的跨集群通信;利用资源利用正常的集群中的监控组件通过当前集群中的端口与当前集群进行跨集群通信,获取当前集群中的待监控信息。
[0015]在一些实施例中,该方法还包括:在相邻的一个或多个集群中不存在资源利用正常的集群的情况下,确定多项资源指标中对应的资源消耗超过预设消耗值的一项或多项资源指标,作为非监控资源指标;修改当前集群的监控组件的监控规则和告警规则中至少一项,其中,修改当前集群的监控组件的监控规则使当前集群的监控组件放弃采集非监控资源指标的数据,修改当前集群的监控组件的告警规则使当前集群的监控组件停止进行异常告警,并提示预设信息。
[0016]在一些实施例中,获取当前集群中多项资源指标的当前数据和预测数据包括:通过容器组监控器和服务监控器获取当前集群中多项资源指标的当前数据;对多项资源指标进行预测,获得多项资源指标的预测数据。
[0017]根据本公开的另一些实施例,提供的一种监控装置,包括:获取单元,用于获取当前集群中多项资源指标的当前数据和预测数据;异常检测单元,用于根据多项资源指标的当前数据和预测数据,确定当前集群的资源利用是否异常;确定单元,用于在当前集群的资源利用异常的情况下,确定相邻的一个或多个集群的资源利用是否异常;监控控制单元,用于在相邻的一个或多个集群中存在资源利用正常的集群的情况下,利用资源利用正常的集群中的监控组件对当前集群进行监控。
[0018]根据本公开的又一些实施例,提供的一种监控装置,包括:处理器;以及耦接至处理器的存储器,用于存储指令,指令被处理器执行时,使处理器执行如前述任意实施例的监控方法。
[0019]根据本公开的再一些实施例,提供的一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例的监控方法。
[0020]本公开中根据当前集群中多项资源指标的当前数据和预测数据,确定当前集群中
的资源利用是否异常,在当前集群的资源利用异常的情况下,如果相邻的集群中存在资源利用正常的集群,则利用资源利用正常的集群中的监控组件对当前集群进行监控。本公开中确定资源利用是否异常可以对网络是否阻塞进行预判,通过资源利用正常的集群中的监控组件对当前集群进行监控可以减少监控组件对当前集群中资源的占用,使得当前集群的资源利用率得到提高,监控数据得以保存,维持了K3s集群中监控服务高可靠性,能够更加准确和有效的对K3s集群进行监控。
[0021]通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
[0022]为了更清楚地说明本公开实施例或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种监控方法,包括:获取当前集群中多项资源指标的当前数据和预测数据;根据所述多项资源指标的当前数据和预测数据,确定所述当前集群的资源利用是否异常;在所述当前集群的资源利用异常的情况下,确定相邻的一个或多个集群的资源利用是否异常;在相邻的一个或多个集群中存在资源利用正常的集群的情况下,利用所述资源利用正常的集群中的监控组件对所述当前集群进行监控。2.根据权利要求1所述的监控方法,其中,所述根据所述多项资源指标的当前数据和预测数据,确定所述当前集群的资源利用是否异常包括:根据各项资源指标的当前数据和各项资源指标对应的阈值,确定可用性评估值;根据所述各项资源指标的预测数据,确定异常评估值;根据所述可用性评估值和所述异常评估值,确定总评估值;根据所述总评估值和预设评估值的对比,确定所述当前集群的资源利用是否异常。3.根据权利要求2所述的监控方法,其中,所述各项资源指标的当前数据包括:所述各项资源指标的剩余比例,所述根据各项资源指标的当前数据和各项资源指标对应的阈值,确定可用性评估值包括:针对每项资源指标,在该资源指标的剩余比例大于该资源指标对应的阈值的情况下,确定该资源指标可用,在该资源指标的剩余比例小于或等于该资源指标对应的阈值的情况下,确定该资源指标不可用;在各项资源指标均可用的情况下,确定可用性评估值为第一预设值;在各项资源指标均不可用的情况下,确定可用性评估值为第二预设值。4.根据权利要求3所述的监控方法,其中,每项资源指标的剩余比例采用以下方法确定:将该项资源指标的可用量减去该项资源指标的请求量,得到该项资源指标的剩余量;将该项资源指标的剩余量与该项资源指标的可用量的比值,作为该项资源指标的剩余比例;其中,所述各项资源指标包括:CPU资源指标、随机存取存储器RAM资源指标和硬盘资源指标。5.根据权利要求1所述的监控方法,其中,每项资源指标的预测数据是根据该项资源指标的预测请求量和该项资源指标在上一周期内的请求量的差距确定的,该项资源指标的预测请求量和该项资源指标在上一周期内的请求量的差距越大,该项资源指标的预测数据越小。6.根据权利要求2所述的监控方法,其中,所述根据所述各项资源指标的预测数据,确定异常评估值包括:根据所述各项资源指标对应的权重,将所述各项资源指标的预测数据进行加权求和;根据加权求和的结果确定所述异常评估值,其中,所述各项资源指标的预测数据越小,所述异常评估值越小。7.根据权利要求6所述的监控方法,其中,每项资源指标对应的权重根据该项资源指标

【专利技术属性】
技术研发人员:朱泽亚全硕
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1