一种高可用的超融合集群监控方法和系统技术方案

技术编号:36805073 阅读:15 留言:0更新日期:2023-03-09 00:10
本申请提供了一种高可用的超融合集群监控方法和系统。其中,该种高可用的超融合集群监控方法具体包括:以虚拟机的形式部署监控服务,监控服务内置于虚拟机镜像内,按照监控策略预设对应的配置文件;根据所获取的配置文件对超融合集群中的各个节点进行监控,获取监控策略对应的监控数据,并将监控数据进行聚合;建立虚拟机超融合集群的通信,根据配置文件和监控数据提供对应数据查询需求和/或报警业务需求,通过虚拟机的形式部署监控服务,使得监控服务与超融合集群隔离,保证监控服务的高可用,持续采集监控数据,通过热重载的方式更新配置文件,进一步提升集群监控的稳定性。进一步提升集群监控的稳定性。进一步提升集群监控的稳定性。

【技术实现步骤摘要】
一种高可用的超融合集群监控方法和系统


[0001]本申请涉及服务器集群
,特别是涉及一种高可用的超融合集群监控方法和系统。

技术介绍

[0002]超融合集群中的监控和/或报警功能是一种能够采集集群状态数据、对外提供监控数据查询和/或发送报警。超融合集群监控的实现需要具备以下功能:采集集群内所有节点的各项监控指标(包括资源利用率、服务运行状态、集群性能指标等),对外提供监控数据查询,并根据预设的报警规则,触发报警等,通过多种形式发送到对应的目标用户。
[0003]现有的超融合集群监控系统功能的实现上主要存在以下几个方面问题:
[0004]第一,监控服务直接部署在超融合集群节点上时,无法将监控服务与超融合集群软件隔离,导致当CPU、内存、磁盘、网络带宽等资源紧张时影响超融合软件自身的稳定性;无法按需配置集群监控需要的存储、计算资源,若集群上所有节点均部署监控服务,将造成资源冗余,并且无法保证多节点上监控数据一致性。
[0005]第二,监控服务部署直接在超融合集群节点上时,若此节点发生导致数据丢失的严重故障,则集群整体的监控数据也将丢失,由于集群监控服务运行在单节点上,当此节点发生异常整体不可用时,监控服务也将不可用,导致超融合集群的监控功能不稳定。
[0006]第三,监控数据直接从集群的节点获取时,当需要更改监控数据来源时或者监控数据的提供端变动时,对应的监控服务也需要进行更改适配,不同组件耦合度较高,
[0007]第四,实际应用中用户往往具有多种监控数据查询和/或报警接收需求,而当前的实现往往只能以固定的方式查询、接收报警,集群监控的数据查询和/或报警不够灵活。

技术实现思路

[0008]为了解决现有技术中在集群节点上直接部署监控服务,使得无法按需按需配置监控服务需要的存储、计算资源导致资源浪费,集群监控不稳定,监控数据的查询和/或报警业务不够灵活等问题。本申请提出了一种高可用的超融合集群监控方法和系统。具体地,本申请的第一方面提供了一种高可用的超融合集群监控方法,包括以下步骤:
[0009]以虚拟机的形式部署监控服务,监控服务内置于虚拟机镜像内;
[0010]在监控服务部署完成的情况下,按照监控策略预设对应的配置文件;
[0011]根据所获取的配置文件对超融合集群中的各个节点进行监控,获取监控策略对应的监控数据,并将监控数据进行聚合;
[0012]建立虚拟机超融合集群的通信,根据配置文件和监控数据提供对应数据查询需求和/或报警业务需求。
[0013]在上述第一方面的一种可能的实现中,监控服务内置于虚拟机镜像内包括:
[0014]构建监控服务的容器镜像;
[0015]在虚拟机操作系统安装完成的情况下,加载监控服务的容器镜像;
[0016]基于容器镜像将监控服务内置于虚拟机镜像内。
[0017]在上述第一方面的一种可能的实现中,以虚拟机的形式部署监控服务还包括:
[0018]预配置生命周期管理服务;
[0019]在虚拟机启动的情况下,调用生命周期管理服务来通过周期任务控制虚拟机以及虚拟机内部的容器状态。
[0020]在上述第一方面的一种可能的实现中,调用生命周期管理服务来通过周期任务控制虚拟机以及虚拟机内部的容器状态包括:
[0021]获取当前检查周期的虚拟机的实时当前状态和虚拟机期望状态;
[0022]基于虚拟机实时状态和虚拟机期望状态,确定当前检查周期的虚拟机操作指令,虚拟机操作指令至少包括创建虚拟机或开机虚拟机、启动容器或关机虚拟机、删除虚拟机或空值;
[0023]执行虚拟机指令,以控制虚拟机以及虚拟机内部的容器状态。
[0024]在上述第一方面的一种可能的实现中,在虚拟机操作指令为空值的情况下,等待进入下一个当前检查周期,重新确定虚拟机操作指令。
[0025]在上述第一方面的一种可能的实现中,按照监控策略预设对应的配置文件之后,建立监控服务与虚拟机之间的通信,还包括:
[0026]在超融合集群的节点上配置内部虚拟网桥,内部虚拟网桥预设静态IP;
[0027]通过静态IP实现部署监控服务的虚拟机与超融合集群的相关服务通信;
[0028]其中,虚拟机上配置有与宿主机的内部虚拟网桥对应连接的网卡。
[0029]在上述第一方面的一种可能的实现中,根据所获取的配置文件对超融合集群中的各个节点进行监控,获取监控策略对应的监控数据,并将监控数据进行聚合包括:
[0030]在超融合集群的节点设置数据采集接口,数据采集接口用于获取监控数据;
[0031]将配置文件注册至分布式数据库,配置文件至少包括数据采集接口、数据采集配置、报警规则;
[0032]根据获取接口采集监控策略对应的监控数据,并将监控数据聚合。
[0033]在上述第一方面的一种可能的实现中,该监控方法还包括:
[0034]在分布式数据库中的配置文件发生更新的情况下,以热重载的方式更新配置文件。
[0035]在上述第一方面的一种可能的实现中,根据配置文件和监控数据提供对应数据查询需求和/或报警业务需求包括:通过应用层协议、电子邮件系统、网页端消息显示查询和/或报警业务的结果。
[0036]本申请的第二方面提供了一种高可用的超融合集群监控系统,应用于如前述的高可用的超融合集群监控方法中,系统包括:
[0037]部署模块,用于以虚拟机的形式部署监控服务,监控服务内置于虚拟机镜像内;
[0038]获取模块,用于在监控服务部署完成的情况下,按照监控策略预设对应的配置文件;
[0039]监控模块,根据所获取的配置文件对超融合集群中的各个节点进行监控,获取监控策略对应的监控数据,并将监控数据进行聚合;
[0040]处理模块,用于建立虚拟机超融合集群的通信,根据配置文件和监控数据提供对
应数据查询需求和/或报警业务需求。
[0041]通过本申请提出的技术方案,至少具备以下有益技术效果:
[0042]1.以虚拟机镜像的形式快捷部署监控服务,用户只需上传虚拟机镜像文件即可一键部署监控服务;以独立监控服务虚拟机的形式实现了与超融合集群其他系统服务计算、存储、网络等资源的隔离;独立部署监控服务的虚拟机运行时,无需考虑监控服务运行在集群内的情况,当监控服出现异常需要排错时,也无需考虑之前时段集群中角色节点变更记录,降低了运维难度;
[0043]2.通过超融合集群提供的虚拟机高可用功能提升了监控服务稳定性,监控服务虚拟机通过状态机的形式保障虚拟机内监控相关容器的正常运行,基于通过超融合集群提供的分布式存储功能来避免监控数据丢失;
[0044]4.当需要修改监控数据来源时只需要修改对应的监控数据提供端对应的配置文件即可,实现集群监控与监控数据提供端的解耦;
[0045]5.可以按需配置多种报警的发送和监控数据的查询方式,例如通过snmp协议、邮件、web页面消息等方式发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高可用的超融合集群监控方法,其特征在于,所述的方法包括:以虚拟机的形式部署监控服务,所述监控服务内置于虚拟机镜像内;在所述监控服务部署完成的情况下,按照监控策略预设对应的配置文件;根据所获取的所述配置文件对超融合集群中的各个节点进行监控,获取所述监控策略对应的监控数据,并将所述监控数据进行聚合;建立所述虚拟机与所述超融合集群的通信,根据所述配置文件和所述监控数据提供对应数据查询需求和/或报警业务需求。2.根据权利要求1所述的一种高可用的超融合集群监控方法,其特征在于,所述监控服务内置于虚拟机镜像内包括:构建所述监控服务的容器镜像;在虚拟机操作系统安装完成的情况下,加载所述监控服务的所述容器镜像;基于所述容器镜像将所述监控服务内置于所述虚拟机镜像内。3.根据权利要求1所述的一种高可用的超融合集群监控方法,其特征在于,以虚拟机的形式部署监控服务还包括:预配置生命周期管理服务;在虚拟机启动的情况下,调用所述生命周期管理服务来通过周期任务控制虚拟机以及虚拟机内部的容器状态。4.根据权利要求3所述的一种高可用的超融合集群监控方法,其特征在于,调用生命周期管理服务来通过周期任务控制虚拟机以及虚拟机内部的容器状态包括:获取当前检查周期的所述虚拟机的实时当前状态和虚拟机期望状态;基于所述虚拟机实时状态和所述虚拟机期望状态,确定当前检查周期的虚拟机操作指令,所述虚拟机操作指令至少包括创建虚拟机或开机虚拟机、启动容器或关机虚拟机、删除虚拟机或空值;执行所述虚拟机指令,以控制虚拟机以及虚拟机内部的容器状态。5.权利要求4所述的一种高可用的超融合集群监控方法,其特征在于,在所述虚拟机操作指令为空值的情况下,等待进入下一个所述当前检查周期,重新确定所述虚拟机操作指令。6.根据权利要求1所述的一种高可用的超融合集群监控方法,其特征在于,建立所述虚拟机与所述超融合集群的通信包括:在...

【专利技术属性】
技术研发人员:杜英杰徐文豪张凯王弘毅
申请(专利权)人:北京志凌海纳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1