Greenplum数据库健康状态监控方法及相关装置制造方法及图纸

技术编号:32280701 阅读:8 留言:0更新日期:2022-02-12 19:47
本发明专利技术公开Greenplum数据库健康状态监控方法及相关装置,通过获得目标Greenplum数据库集群的各物理主机在第一时间范围内的硬件故障信息、主机系统指标信息和数据库运行指标信息;根据硬件故障信息,确定出现过故障的有故障物理主机和未出现过故障的无故障物理主机;根据上述信息建立相应的曲线组作为历史参考值;根据相应的曲线组,分别确定所述目标Greenplum数据库集群的各所述物理主机的当前健康状态。本发明专利技术可以根据物理主机的硬件信息、主机系统指标信息和数据库运行指标信息,及时准确地确定Greenplum数据库集群的健康状态。态。态。

【技术实现步骤摘要】
Greenplum数据库健康状态监控方法及相关装置


[0001]本专利技术涉及运维领域,特别涉及一种Greenplum数据库健康状态监控方法及相关装置。

技术介绍

[0002]数据仓库整个数据线的核心,是企业级管理决策数据的唯一整合点,而Greenplum数据库是经常使用的数据管理分析平台。近年来随着Greenplum数据库设备数量不断增加,告警数量也在不断增加,但告警的准确性却很低,无法及时准确反映出Greenplum数据库的健康状态。

技术实现思路

[0003]鉴于上述问题,本专利技术提供一种克服上述问题或者至少部分地解决上述问题的Greenplum数据库健康状态监控方法及相关装置。
[0004]第一方面,一种Greenplum数据库健康状态监控方法,包括:
[0005]获得目标Greenplum数据库集群的各物理主机在第一时间范围内的多种信息,其中,每个所述物理主机的信息均包括:硬件故障信息、主机系统层面的各主机系统指标信息和数据库运行层面的各数据库运行指标信息;
[0006]将所述硬件故障信息、所述主机系统指标信息和所述数据库运行指标信息分别按照时间顺序存储至mysql数据库对应的数据表中,其中,多个所述物理主机的同一种信息对应一个所述数据表;
[0007]根据所述硬件故障信息,确定在第二时间范围内出现过故障的有故障物理主机和在所述第二时间范围内未出现过故障的无故障物理主机,其中,所述第二时间范围处于所述第一时间范围内;
[0008]根据各所述有故障物理主机的各所述主机系统指标信息和各所述数据库运行指标信息,分别确定所述有故障物理主机的各所述主机系统指标信息对应的第一指标曲线组和所述有故障物理主机的各所述数据库运行指标信息对应的第二指标曲线组;
[0009]根据各所述无故障物理主机的各所述主机系统指标信息和各所述数据库运行指标信息,分别确定所述无故障物理主机的各所述主机系统指标信息对应的第三指标曲线组和所述无故障物理主机的各所述数据库运行指标信息对应的第四指标曲线组;
[0010]根据所述第一指标曲线组、所述第二指标曲线组、所述第三指标曲线组和所述第四指标曲线组,分别确定所述目标Greenplum数据库集群的各所述物理主机的当前健康状态。
[0011]结合第一方面,在某些可选的实施方式中,所述方法还包括:
[0012]若所述目标Greenplum数据库集群不是新建的Greenplum数据库集群,则直接获得各所述物理主机的硬件故障信息、主机系统指标信息和数据库运行指标信息;
[0013]若所述目标Greenplum数据库集群为新建的Greenplum数据库集群,则从配置库中
获得所述目标Greenplum数据库集群的硬件配置信息,并根据所述硬件配置信息,获得其它Greenplum数据库集群的硬件故障信息、主机系统指标信息和数据库运行指标信息作为所述目标Greenplum数据库集群的硬件故障信息、主机系统指标信息和数据库运行指标信息,其中,所述其它Greenplum数据库集群和所述目标Greenplum数据库集群的硬件配置信息一致。
[0014]结合上一个实施方式,在某些可选的实施方式中,所述直接获得各所述物理主机的硬件故障信息、主机系统指标信息和数据库运行指标信息,包括:
[0015]获得各所述物理主机通过SNMPTRAP协议发送的各陷入消息trap,并根据各所述陷入消息trap获得各所述物理主机在所述第一时间范围内的硬件故障信息;
[0016]分别通过部署在各所述物理主机上的patrol进程,按照预设的周期,采集各所述物理主机在所述第一时间范围内相应的所述主机系统指标信息,其中,所述主机系统指标信息包括:CPU利用率、系统CPU占用率、CPU等待IO时间、内存利用率、可用内存率、内存页交换进出、SWAP利用率、用户打开进程数、僵尸进程数、磁盘busy百分率和磁盘IO读写速度中的至少一种;
[0017]分别通过运行相应的脚本,按照预设的周期,从相应的日志文件中获得各所述物理主机在所述第一时间范围内相应的所述数据库运行指标信息,其中,所述数据库运行指标信息包括:物理主机的用户连接数、SQL的执行时间和SQL在预设周期内的完成数量中的至少一种,所述脚本与所述日志文件对应,所述日志文件与数据库运行指标信息对应。
[0018]结合上一个实施方式,在某些可选的实施方式中,所述根据各所述有故障物理主机的各所述主机系统指标信息和各所述数据库运行指标信息,分别确定所述有故障物理主机的各所述主机系统指标信息对应的第一指标曲线组和所述有故障物理主机的各所述数据库运行指标信息对应的第二指标曲线组,包括:
[0019]针对各所述有故障物理主机的任一所述主机系统指标信息,均执行方式一,从而确定所述第一指标曲线组;
[0020]方式一、根据各所述有故障物理主机相应的所述主机系统指标信息,确定所述有故障物理主机相应的所述主机系统指标信息对应的指标曲线;
[0021]针对各所述有故障物理主机的任一所述数据库运行指标信息,均执行方式二,从而确定所述第二指标曲线组;
[0022]方式二、根据各所述有故障物理主机相应的所述数据库运行指标信息,确定所述有故障物理主机相应的所述数据库运行指标信息对应的指标曲线;
[0023]所述根据各所述无故障物理主机的各所述主机系统指标信息和各所述数据库运行指标信息,分别确定所述无故障物理主机的各所述主机系统指标信息对应的第三指标曲线组和所述无故障物理主机的各所述数据库运行指标信息对应的第四指标曲线组,包括:
[0024]针对各所述无故障物理主机的任一所述主机系统指标信息,均执行方式三,从而确定所述第三指标曲线组;
[0025]方式三、根据各所述无故障物理主机相应的所述主机系统指标信息,确定所述无故障物理主机相应的所述主机系统指标信息对应的指标曲线;
[0026]针对各所述无故障物理主机的任一所述数据库运行指标信息,均执行方式四,从而确定所述第四指标曲线组;
[0027]方式四、根据各所述无故障物理主机相应的所述数据库运行指标信息,确定所述无故障物理主机相应的所述数据库运行指标信息对应的指标曲线;
[0028]其中,所述第一指标曲线组、所述第二指标曲线组、所述第三指标曲线组和所述第四指标曲线组均包括至少一条指标曲线,一条指标曲线对应一种指标信息。
[0029]结合上一个实施方式,在某些可选的实施方式中,所述根据所述第一指标曲线组、所述第二指标曲线组、所述第三指标曲线组和所述第四指标曲线组,分别确定所述目标Greenplum数据库集群的各所述物理主机的当前健康状态,包括:
[0030]获得所述目标Greenplum数据库集群的各所述物理主机的硬件故障信息、当前各所述主机系统指标信息和当前各所述数据库运行指标信息;
[0031]对于任一物理主机,均执行:根据所述硬件故障信息,确定所述物理主机为所述无故障物理主机或者为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种Greenplum数据库健康状态监控方法,其特征在于,包括:获得目标Greenplum数据库集群的各物理主机在第一时间范围内的多种信息,其中,每个所述物理主机的信息均包括:硬件故障信息、主机系统层面的各主机系统指标信息和数据库运行层面的各数据库运行指标信息;将所述硬件故障信息、所述主机系统指标信息和所述数据库运行指标信息分别按照时间顺序存储至mysql数据库对应的数据表中,其中,多个所述物理主机的同一种信息对应一个所述数据表;根据所述硬件故障信息,确定在第二时间范围内出现过故障的有故障物理主机和在所述第二时间范围内未出现过故障的无故障物理主机,其中,所述第二时间范围处于所述第一时间范围内;根据各所述有故障物理主机的各所述主机系统指标信息和各所述数据库运行指标信息,分别确定所述有故障物理主机的各所述主机系统指标信息对应的第一指标曲线组和所述有故障物理主机的各所述数据库运行指标信息对应的第二指标曲线组;根据各所述无故障物理主机的各所述主机系统指标信息和各所述数据库运行指标信息,分别确定所述无故障物理主机的各所述主机系统指标信息对应的第三指标曲线组和所述无故障物理主机的各所述数据库运行指标信息对应的第四指标曲线组;根据所述第一指标曲线组、所述第二指标曲线组、所述第三指标曲线组和所述第四指标曲线组,分别确定所述目标Greenplum数据库集群的各所述物理主机的当前健康状态。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述目标Greenplum数据库集群不是新建的Greenplum数据库集群,则直接获得各所述物理主机的硬件故障信息、主机系统指标信息和数据库运行指标信息;若所述目标Greenplum数据库集群为新建的Greenplum数据库集群,则从配置库中获得所述目标Greenplum数据库集群的硬件配置信息,并根据所述硬件配置信息,获得其它Greenplum数据库集群的硬件故障信息、主机系统指标信息和数据库运行指标信息作为所述目标Greenplum数据库集群的硬件故障信息、主机系统指标信息和数据库运行指标信息,其中,所述其它Greenplum数据库集群和所述目标Greenplum数据库集群的硬件配置信息一致。3.根据权利要求2所述的方法,其特征在于,所述直接获得各所述物理主机的硬件故障信息、主机系统指标信息和数据库运行指标信息,包括:获得各所述物理主机通过SNMPTRAP协议发送的各陷入消息trap,并根据各所述陷入消息trap获得各所述物理主机在所述第一时间范围内的硬件故障信息;分别通过部署在各所述物理主机上的patrol进程,按照预设的周期,采集各所述物理主机在所述第一时间范围内相应的所述主机系统指标信息,其中,所述主机系统指标信息包括:CPU利用率、系统CPU占用率、CPU等待IO时间、内存利用率、可用内存率、内存页交换进出、SWAP利用率、用户打开进程数、僵尸进程数、磁盘busy百分率和磁盘IO读写速度中的至少一种;分别通过运行相应的脚本,按照预设的周期,从相应的日志文件中获得各所述物理主机在所述第一时间范围内相应的所述数据库运行指标信息,其中,所述数据库运行指标信息包括:物理主机的用户连接数、SQL的执行时间和SQL在预设周期内的完成数量中的至少
一种,所述脚本与所述日志文件对应,所述日志文件与数据库运行指标信息对应。4.根据权利要求3所述的方法,其特征在于,所述根据各所述有故障物理主机的各所述主机系统指标信息和各所述数据库运行指标信息,分别确定所述有故障物理主机的各所述主机系统指标信息对应的第一指标曲线组和所述有故障物理主机的各所述数据库运行指标信息对应的第二指标曲线组,包括:针对各所述有故障物理主机的任一所述主机系统指标信息,均执行方式一,从而确定所述第一指标曲线组;方式一、根据各所述有故障物理主机相应的所述主机系统指标信息,确定所述有故障物理主机相应的所述主机系统指标信息对应的指标曲线;针对各所述有故障物理主机的任一所述数据库运行指标信息,均执行方式二,从而确定所述第二指标曲线组;方式二、根据各所述有故障物理主机相应的所述数据库运行指标信息,确定所述有故障物理主机相应的所述数据库运行指标信息对应的指标曲线;所述根据各所述无故障物理主机的各所述主机系统指标信息和各所述数据库运行指标信息,分别确定所述无故障物理主机的各所述主机系统指标信息对应的第三指标曲线组和所述无故障物理主机的各所述数据库运行指标信息对应的第四指标曲线组,包括:针对各所述无故障物理主机的任一所述主机系统指标信息,均执行方式三,从而确定所述第三指标曲线组;方式三、根据各所述无故障物理主机相应的所述主机系统指标信息,确定所述无故障物理主机相应的所述主机系统指标信息对应的指标曲线;针对各所述无故障物理主机的任一所述数据库运行指标信息,均执行方式四,从而确定所述第四指标曲线组;方式四、根据各所述无故障物理主机相应的所述数据库运行指标信息,确定所述无故障物理主机相应的所述数据库运行指标信息对应的指标曲线;其中,所述第一指标曲线组、所述第二指标曲线组、所述第三指标曲线组和所述第四指标曲线组均包括至少一条指标曲线,一条所述指标曲线对应一种指标信息。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一指标曲线组、所述第二指标曲线组、所述...

【专利技术属性】
技术研发人员:钟凯祥
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1