一种对多个分布式MPP集群进行监控报警的监控方法及系统技术方案

技术编号:30145689 阅读:27 留言:0更新日期:2021-09-23 15:19
本发明专利技术提供了一种对多个分布式MPP集群进行监控报警的监控方法及系统,包括通过分布式监控系统对每个分布式MPP集群进行监控策略设置;采集中心向采集代理模块发送采集信号;采集代理模块根据接收的采集信号进行监控指标采集,将采集的监控指标返回给采集中心模块;采集中心模块根据监控指标的指标值进行告警运算,并判断是否告警;将采集的信息及告警信息保存至资源库模块;监控网站模块获取资源库模块的信息,实现告警信息查看和指标趋势信息查看。本发明专利技术所述的方法及系统,能够实现对多个分布式MPP集群进行独立的监控策略设置,并进行集中监控,较只能监控一个集群的监控系统,可以解决多个分布式MPP集群间切换监控时需要跨监控平台进行切换的问题。需要跨监控平台进行切换的问题。需要跨监控平台进行切换的问题。

【技术实现步骤摘要】
一种对多个分布式MPP集群进行监控报警的监控方法及系统


[0001]本专利技术属于分布式MPP集群监控领域,尤其是涉及一种对多个分布式MPP集群进行监控报警的监控方法及系统。

技术介绍

[0002]随着分布式MPP集群的广泛应用,在一个环境中,可能同时存在多套分布式MPP集群,能够同时掌握每一个分布式MPP集群的状态和性能情况,并根据预先设置好的监控策略对获取的指标内容进行评估,对突破阈值的指标进行告警,让数据库集群管理人员了解数据库集群的运行状态,从而实时对数据库进行调整,保证数据库集群的正常运行就显得尤为重要了。

技术实现思路

[0003]有鉴于此,本专利技术旨在提出一种对多个分布式MPP集群进行监控报警的监控方法及系统,以解决对多个分布式MPP集群的实时监控,便于数据库集群管理人员了解数据库集群的运行状态,实时对数据库进行调整的问题。
[0004]为达到上述目的,本专利技术的技术方案是这样实现的:一种对多个分布式MPP集群进行监控报警的监控方法,包括以下步骤:S1、通过分布式监控系统对每一个分布式MPP集群进行监控策略设置;S2、采集中心模块向分布式MPP集群的采集代理模块发送采集信号;S3、分布式MPP集群的采集代理模块根据接收的采集信号进行监控指标的指标值的采集,将采集的监控指标的指标值返回给采集中心模块;S4、采集中心模块根据监控指标的指标值进行告警运算,并判断是否告警;S5、采集中心模块将采集监控指标的指标值的信息及告警信息保存至资源库模块;S6、监控网站模块获取资源库模块的信息,实现可视化的告警信息查看和指标趋势信息查看功能。
[0005]进一步的,步骤S1中监控策略包括:设定监控指标的指标值的采集周期,设定每个监控指标的报警策略判断条件,设定所有监控指标统一报警方式;监控指标的采集周期,该采集周期为相邻两次获取状态和性能指标的时间间隔;每个监控指标的报警策略判断条件包括:单指标判断条件和汇总指标判断条件,首先进行单指标判断条件的设定,然后再进行汇总指标判断条件的设定;单指标判断条件的设定包括:每个监控指标的采集指标状态(若采集指标状态为是,则该监控指标可进行采集,若不是,则不进行采集),每个监控指标的报警阈值的设定,每个监控指标的页面显示状态(若页面显示状态为是,则显示界面可显示该监控指标的状态,若不是则不进行显示),每个监控指标的告警状态(若告警状态为是时,则该监控指标进行告警,若不是,则不进行报警),每个监控指标告警的恢复通知状态,每个监控指标的连续
告警状态,每个监控指标的超时忽略状态,每个监控指标的超时忽略时长,每个监控指标连续突破告警的次数。
[0006]汇总指标判断条件的设定包括:每个监控指标的汇总告警状态,每个监控指标的取消单指标告警状态,每个监控指标的汇总方式、汇总判断条件、汇总判断阈值;汇总方式包括指标求和、平均值、报警求和、最大值;汇总判断条件包括:大于、小于、等于、大于等于、小于等于;告警方式包括:邮件的告警方式、简单网络管理协议传输的告警方式、、消息队列发送的告警方式;网络应用程序的告警方式。
[0007]进一步的,所述步骤S3中监控指标包括:可用类、操作系统类、进行状态、集群状态类、数据库状态类、执行状态类。
[0008]进一步的,步骤S4中监控指标的指标值的告警运算包括单指标告警运算和汇总指标告警运算。
[0009]进一步的,单指标告警运算过程包括以下步骤:S401、采集中心模块启动,将分布式MPP集群的所有监控指标的监控策略从资源模块加载到监控策略缓存中;S402、采集中心模块采集所有被监控的分布式MPP集群下的每个服务器的每个监控指标的名称及监控指标的指标值;S403、采集中心模块并从缓存中获取监控策略的判断条件和阈值,采集中心模块将从服务器获取每个监控指标的名称及监控指标的指标值进行判断条件以及阈值的对比;S404、若从服务器获取的每个监控指标的名称及监控指标的指标值满足判断条件以及突破了阈值,则认为服务器的监控指标出现异常,产生异常告警,否则认为服务器的监控指标正常,则产生恢复告警;S405、如果产生异常告警,根据监控指标的名称,从监控策略中获取该监控指标的指标值判断是否告警、判断是否连续告警、判断连续突破告警次数,进行告警;S406、如果产生恢复告警,根据监控指标的名称,从监控策略中获取该监控指标的配置,判断是否需要恢复告警。
[0010]汇总指标告警运算过程包括以下步骤:S411、采集中心模块启动,将分布式MPP集群的所有监控指标的监控策略从资源模块加载到监控策略缓存中;S412、采集中心模块从监控指标缓存中,获取在单指标告警的监控指标名称和监控指标的指标值,同时从监控策略缓存中获取汇总方式,然后根据汇总方式进行汇总运算,获得汇总值;S413、采集中心模块根据监控指标名称从监控策略缓存中获取对应的监控策略的汇总判断条件以及汇总阈值,将得到的汇总方式、汇总值与汇总判断条件、汇总阈值进行对比;S414、如果汇总方式符合汇总条件,并且汇总值突破汇总阈值,则产生异常告警;S415、如果汇总方式不符合汇总条件,并且汇总值未突破汇总阈值,则产生恢复告警。
[0011]一种对多个分布式MPP集群进行监控报警的监控系统,包括:资源库模块、WEB模
块、采集中心模块、采集代理模块;采集中心模块,用于向采集代理模块发送数据采集信号;采集代理模块,用于根据接收的采集信号采集服务器监控指标的指标值,并将监控指标的指标值传送给采集中心模块进行告警运算;WEB模块,用于接收采集中心模块告警运算后的数据进行显示;资源库模块,用于存储采集代理模块向采集中心模块传送的数据,及采集中心模块告警运算后的数据。
[0012]进一步的,所述资源库模块,用于存储系统配置数据及系统采集数据;系统配置数据包括:系统的用户信息、角色信息、模块权限信息、目标分布式MPP集群的概要信息、目标分布式MPP集群的监控策略、目标分布式集群的节点信息,以及用于系统运行的辅助信息;系统采集数据包括:目标分布式集群的指标采集数据、目标分布式集群的告警信息。
[0013]进一步的,WEB模块,用于提供可视化的操作面板,供用户进行系统的相关配置,同时提供所有目标分布式MPP集群监控指标的显示,告警信息查看;采集中心模块,用于根据用户设定的监控策略,周期性从目标分布式MPP集群上的采集代理模块获取监控指标的值;每一个目标分布式MPP集群对应一个采集中心模块,采集中心模块与资源库模块、WEB模块、采集代理模块进行交互。
[0014]进一步的,采集代理模块,用于接收采集中心模块发送的数据采集请求;每一目标分布式MPP集群服务器对应一个采集代理模块,采集代理模块必须部署在对应的目标分布式MPP集群服务器上,采集代理模块与采集中心模块进行交互。
[0015]相对于现有技术,本专利技术所述的一种对多个分布式MPP集群进行监控报警的监控方法及系统具有以下有益效果:(1)本专利技术所述的方法及系统,能够实现对多个分布式MPP集群进行独立的监控策略设置,并进行集中监控,较本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对多个分布式MPP集群进行监控报警的监控方法,其特征在于包括以下步骤:S1、通过分布式监控系统对每一个分布式MPP集群进行监控策略设置;S2、采集中心模块向分布式MPP集群的采集代理模块发送采集信号;S3、分布式MPP集群的采集代理模块根据接收的采集信号进行监控指标的指标值的采集,将采集的监控指标的指标值返回给采集中心模块;S4、采集中心模块根据监控指标的指标值进行告警运算,并判断是否告警;S5、采集中心模块将采集监控指标的指标值的信息及告警信息保存至资源库模块;S6、监控网站模块获取资源库模块的信息,实现可视化的告警信息查看和指标趋势信息查看功能;步骤S1中监控策略包括:设定监控指标的指标值的采集周期,设定每个监控指标的报警策略判断条件,设定所有监控指标统一报警方式;步骤S4中监控指标的指标值的告警运算包括单指标告警运算和汇总指标告警运算;单指标告警运算过程是通过监控指标值与监控策略的设计阈值进行对比,判断是否产生告警;汇总指标告警的运算过程是将每个分布式MPP集群下的所有采集代理的单指标的指标值根据设计汇总方式进行汇总运算,将得到的值与监控策略的设计阈值进行对比,判断是否产生告警。2.根据权利要求1所述的一种对多个分布式MPP集群进行监控报警的监控方法,其特征在于:监控指标的采集周期,该采集周期为相邻两次获取状态和性能指标的时间间隔;每个监控指标的报警策略判断条件包括:单指标判断条件和汇总指标判断条件,首先进行单指标判断条件的设定,然后再进行汇总指标判断条件的设定;单指标判断条件的设定包括:每个监控指标的采集指标状态,每个监控指标的报警阈值的设定,每个监控指标的页面显示状态,每个监控指标的告警状态,每个监控指标告警的恢复通知状态,每个监控指标的连续告警状态,每个监控指标的超时忽略状态,每个监控指标的超时忽略时长,每个监控指标连续突破告警的次数;汇总指标判断条件的设定包括:每个监控指标的汇总告警状态,每个监控指标的取消单指标告警状态,每个监控指标的汇总方式、汇总判断条件、汇总判断阈值;汇总方式包括:指标值的求和、平均值、报警求和、最大值;汇总判断条件包括:大于、小于、等于、大于等于、小于等于;告警方式包括:邮件的告警方式、简单网络管理协议传输的告警方式;消息队列发送的告警方式;网络应用程序的告警方式。3.根据权利要求1所述的一种对多个分布式MPP集群进行监控报警的监控方法,其特征在于:所述步骤S3中监控指标的分类包括:可用类、操作系统类、进行状态、集群状态类、数据库状态类、执行状态类。4.根据权利要求1所述的一种对多个分布式MPP集群进行监控报警的监控方法,其特征在于,单指标告警运算过程包括以下步骤:S401、采集中心模块启动,将分布式MPP集群的所有监控指标的监控策略从资源模块加载到监控策略缓存中;S402、采集中心模块采集所有被监控的分布式MPP集群下的每个服务器的每个监控指
标的名称及监控指标的指标值;S403、采集中心模块并从缓存中获取监控策略的判断条件和阈值,采集中心模块将从服务器获取每个监控指标的名称及监控指标的指标值进行判断条件以及阈值的对比;S404、若从服务器获取的每个监控指标的名称及监控指标的指...

【专利技术属性】
技术研发人员:赵伟范树磊
申请(专利权)人:天津南大通用数据技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1