一种监控部署方法、设备及装置制造方法及图纸

技术编号:38152707 阅读:13 留言:0更新日期:2023-07-13 09:18
本发明专利技术涉及一种监控部署方法、设备及装置,方法包括步骤:根据当前Prometheus节点数量与待监控节点数量对待监控节点进行分组,并为每个分组分配一个Prometheus主服务;在每个Prometheus节点部署至少一个活动的Prometheus主服务并为每个Prometheus主服务配置至少一个Prometheus备服务,且所述Prometheus备服务与对应的Prometheus主服务不在同一个Prometheus节点上;当Prometheus主服务无法工作时启动其对应的Prometheus备服务工作。可解决大规模节点设备场景下多个Prometheus服务之间的调度和均衡问题。Prometheus服务之间的调度和均衡问题。Prometheus服务之间的调度和均衡问题。

【技术实现步骤摘要】
一种监控部署方法、设备及装置


[0001]本专利技术涉及监控部署
,特别涉及一种基于Prometheus服务的监控部署方法、设备及装置。

技术介绍

[0002]目前,基于云计算平台,越来越多厂商不仅拥有自身的云产品,还将业务迁移到云平台上去,方便管理和运维,节省成本。随之而来的问题是如何将大规模的云计算平台的节点进行监控。常用的监控平台有开源的Prometheus(开源系统监视和警报工具包),然后配置时序数据库和相关的软件如alertmanager来形成一套监控告警的方案。
[0003]相关技术中,prometheus是单节点部署,不具备可靠性,无法满足大规模节点设备场景下的监控可靠和性能需求。某些使用集群的方式部署,但本质上只有一个prometheus节点工作,prometheus挂掉后再重新选择主节点,并没有解决针对大规模节点监控的使用场景下如何实现多个Prometheus服务之间的调度和均衡问题。还有一些技术中提出了以任务均衡的方式分配到不同的prometheus节点上,但是在prometheus本身节点的可靠性和服务的均衡性上缺少考虑,导致面对海量的云平台的节点,整体监控的可靠性较差。

技术实现思路

[0004]本专利技术实施例提供一种监控部署方法、设备及装置。可解决大规模节点设备场景下多个Prometheus服务之间的调度和均衡问题。
[0005]第一方面,本专利技术实施例提供了一种监控部署方法,其特征在于,其包括步骤:
[0006]根据当前Prometheus节点数量与待监控节点数量对待监控节点进行分组,并为每个分组分配一个Prometheus主服务;
[0007]在每个Prometheus节点部署至少一个活动的Prometheus主服务并为每个Prometheus主服务配置至少一个Prometheus备服务,且所述Prometheus备服务与对应的Prometheus主服务不在同一个Prometheus节点上;
[0008]当Prometheus主服务无法工作时启动其对应的Prometheus备服务工作。
[0009]一些实施例中,所述根据当前Prometheus节点数量与待监控节点数量对待监控节点进行分组,包括步骤:
[0010]根据当前Prometheus节点数量确定分组的组数量;
[0011]将所述待监控节点平均分配在每个组内;
[0012]若所述待监控节点数量除以所述组数量后的余数不为零,则将剩余无法平均分配的待监控节点依次放入不同组中。
[0013]一些实施例中,所述在每个Prometheus节点部署至少一个活动的Prometheus主服务并为每个Prometheus主服务配置至少一个Prometheus备服务,包括步骤:
[0014]根据能保证所有Prometheus服务正常工作的最少Prometheus节点数确定故障容忍度;
[0015]根据所述故障容忍度和当前Prometheus节点总数为每个Prometheus主服务配置相应的Prometheus备服务;
[0016]并将一个Prometheus主服务对应的所有Prometheus备服务配置在不同的Prometheus节点上。
[0017]一些实施例中,所述当Prometheus主服务无法工作时启动其对应的Prometheus备服务工作,包括步骤:
[0018]若所述Prometheus主服务对应配置有两个或以上的Prometheus备服务,则查找出当前Prometheus节点中处于工作状态的Prometheus服务最少的节点并启动在该节点上与所述Prometheus主服务对应的Prometheus备服务。
[0019]一些实施例中,所述当Prometheus主服务无法工作时启动其对应的Prometheus备服务工作,包括步骤:
[0020]若所述Prometheus主服务对应配置有两个或以上的Prometheus备服务,且当前所有Prometheus节点上处于工作状态的Prometheus服务数量相同,则选择使用负载最小Prometheus节点并启动在该节点上与所述Prometheus主服务对应的Prometheus备服务。
[0021]一些实施例中,当Prometheus主服务无法工作的Prometheus节点恢复正常后,还包括步骤:
[0022]使恢复正常的Prometheus节点上的Prometheus主服务恢复工作。
[0023]一些实施例中,还包括步骤:
[0024]当所述当前Prometheus节点数量发生变化时,根据变化后的Prometheus节点数量与待监控节点数量对待监控节点进行分组,并为每个分组分配一个Prometheus主服务。
[0025]第二方面,本专利技术实施例还提供了一种设备,其特征在于,所述设备包括:至少一个处理器;以及与所述至少一个处理器耦合的存储器,所述存储器包含有存储于其中的指令,所述指令在被所述处理器加载并执行,以实现如权利要求1

7中任一项所述的方法。
[0026]第三方面,本专利技术实施例还提供了一种基于Prometheus服务的监控部署装置,其特征在于,其包括,节点分组模块,其用于:
[0027]根据当前Prometheus节点数量与待监控节点数量对待监控节点进行分组,并为每个分组分配一个Prometheus主服务;
[0028]在每个Prometheus节点部署至少一个活动的Prometheus主服务并为每个Prometheus主服务配置至少一个Prometheus备服务,且所述Prometheus备服务与对应的Prometheus主服务不在同一个Prometheus节点上;
[0029]Prometheus服务自动均衡模块,其用于:
[0030]当Prometheus主服务无法工作时启动其对应的Prometheus备服务工作。
[0031]一些实施例中,所述节点分组模块还用于:
[0032]根据当前Prometheus节点数量确定分组的组数量;
[0033]将所述待监控节点平均分配在每个组内;
[0034]若所述待监控节点数量除以所述组数量后的余数不为零,则将剩余无法平均分配的待监控节点依次放入不同组中。
[0035]本专利技术实施例提供了一种基于Prometheus服务的监控部署方法、设备及装置。将监控指标(所有监控对象)按照节点粒度分组进行监控,保证每个prometheus服务处理不同
的监控任务,解决大规模节点设备场景下多个Prometheus服务之间的调度和均衡问题,同时还考虑到prometheus节点本身的可靠性和服务的均衡性,面对海量的云平台的节点,能够有效提高整体监控的可靠性。
附图说明
[0036]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种监控部署方法,其特征在于,其包括步骤:根据当前Prometheus节点数量与待监控节点数量对待监控节点进行分组,并为每个分组分配一个Prometheus主服务;在每个Prometheus节点部署至少一个活动的Prometheus主服务并为每个Prometheus主服务配置至少一个Prometheus备服务,且所述Prometheus备服务与对应的Prometheus主服务不在同一个Prometheus节点上;当Prometheus主服务无法工作时启动其对应的Prometheus备服务工作。2.如权利要求1所述的监控部署方法,其特征在于,所述根据当前Prometheus节点数量与待监控节点数量对待监控节点进行分组,包括步骤:根据当前Prometheus节点数量确定分组的组数量;将所述待监控节点平均分配在每个组内;若所述待监控节点数量除以所述组数量后的余数不为零,则将剩余无法平均分配的待监控节点依次放入不同组中。3.如权利要求1所述的监控部署方法,其特征在于,所述在每个Prometheus节点部署至少一个活动的Prometheus主服务并为每个Prometheus主服务配置至少一个Prometheus备服务,包括步骤:根据能保证所有Prometheus服务正常工作的最少Prometheus节点数确定故障容忍度;根据所述故障容忍度和当前Prometheus节点总数为每个Prometheus主服务配置相应的Prometheus备服务;并将一个Prometheus主服务对应的所有Prometheus备服务配置在不同的Prometheus节点上。4.如权利要求1所述的监控部署方法,其特征在于,所述当Prometheus主服务无法工作时启动其对应的Prometheus备服务工作,包括步骤:若所述Prometheus主服务对应配置有两个或以上的Prometheus备服务,则查找出当前Prometheus节点中处于工作状态的Prometheus服务最少的节点并启动在该节点上与所述Prometheus主服务对应的Prometheus备服务。5.如权利要求4所述的监控部署方法,其特征在于,所述当Prometheus主服务无法工作时启动其对应的Prometheus备服务工作,包括...

【专利技术属性】
技术研发人员:李涛朱正亮田依蕾李航刘丽萍郑少廷黄莎莎杨晓静柯曾勇
申请(专利权)人:烽火通信科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1