一种大规模集群运维监控方法技术

技术编号:33285955 阅读:12 留言:0更新日期:2022-04-30 23:53
本发明专利技术公开了一种大规模集群运维监控方法,用于对大规模集群进行监控,包括步骤:在主控端部署ansible分发工具,并利用ansible分发工具将监控信息采集程序分发给集群中被监控主机;利用监控信息采集程序获取集群中被监控主机数据信息;利用大数据对主机数据信息进行清洗并关联入库;设置告警策略并对告警进行集中展现。实施本发明专利技术,本申请中大规模集群运维监控部署简单、全流程可追溯,历史数据追溯时间长,监控程序稳定性高,监控告警时延可控,提高了监控效率。高了监控效率。高了监控效率。

【技术实现步骤摘要】
一种大规模集群运维监控方法


[0001]本专利技术涉及移动通信
,特别涉及一种大规模集群运维监控方法。

技术介绍

[0002]随着科技信息产业的发展,特别是大数据等新兴信息技术的出现和迅猛发展,越来越多的公司业务在集群中运行,企业的日常运行也越来越离不开集群服务器以及各类运行在上面的业务软件的支持。因此,对集群中的各个设备以及软件进行运维监控,及时发现问题,具有重大意义。
[0003]但目前的企业运维监控平台目前存在如下问题。
[0004](1)缺乏易于部署与配置的机制,当监控的主机越来越多时,添加主机非常麻烦,且程序消耗过多主机系统资源;
[0005](2)监控无法定制化或自由度低,往往只能针对主机硬件、网络、存储和计算资源的监控,很难针对具体业务场景或应用程序进行监控,定制化监控成本高;
[0006](3)监控程序消耗的资源比较多,如果监控的主机非常多时,易出现监控超时甚至监控程序卡死;
[0007](4)受限于单台主监控端的存储和计算资源限制,历史数据的查询和留存周期短。

技术实现思路

[0008]现有技术中,大规模集群监控时,缺乏易于部署和配置的机制、监控无法定制化或自由度低及定制化监控成本高,监控程序消耗资源多且历史数据查询留存周期短。
[0009]针对上述问题,提出一种大规模集群运维监控方法,通过在主控端部署ansible分发工具,并利用ansible分发工具将监控信息采集程序分发给集群中被监控主机;利用监控信息采集程序获取集群中被监控主机数据信息。本申请中大规模集群运维监控部署简单、全流程可追溯,历史数据追溯时间长,监控程序稳定性高,监控告警时延可控,提高了监控效率,解决了现有技术存在的问题。
[0010]一种大规模集群运维监控方法,用于对大规模集群进行监控,包括:
[0011]步骤100、在主控端部署ansible分发工具,并利用所述ansible分发工具将监控信息采集程序分发给集群中被监控主机;
[0012]步骤200、利用监控信息采集程序获取集群中被监控主机数据信息;
[0013]步骤300、利用大数据对所述主机数据信息进行清洗并关联入库;
[0014]步骤400、设置告警策略并对告警进行集中展现。
[0015]结合本专利技术所述的大规模集群运维监控方法,第一种可能的实施方式中,所述步骤100包括:
[0016]步骤110、对所述ansible分发工具进行第一文件配置,以获取被监控主机第一信息;
[0017]步骤120、对所述ansible分发工具进行第二文件配置,以获取被监控主机第二信
息;
[0018]其中,所述第一文件配置为INVENTORY文件配置,第一信息为被监控主机信息,所述第二文件配置为json格式文件配置,第二信息包括单个特定监测主机的账号密码、数据路径、程序名称、配置参数值、状态监测脚本路径。
[0019]结合本专利技术第一种可能的实施方式,第二种可能的实施方式中,所述步骤100还包括:
[0020]步骤130、嵌套使用所述ansible分发工具中的多个分发模块;
[0021]步骤140、启动分发程序,将所述监控信息采集程序并发给集群中被监控主机;
[0022]其中,所述分发模块包括ping模块、setup模块、script模块、register模块及command模块。
[0023]结合本专利技术第二种可能的实施方式,第三种可能的实施方式中,所述步骤200包括:
[0024]步骤210、采用python编写所述监控信息采集程序;
[0025]步骤220、在所述监控信息采集程序嵌入拉取模块及定制模块;
[0026]其中,所述拉取模块用于控制端主程序从被监控主机拉取数据信息,所述定制模块用于通过程序定制使得所述监控信息采集程序支持python格式文件、java格式文件。
[0027]结合本专利技术第三种可能的实施方式,第四种可能的实施方式中,所述步骤200还包括:
[0028]步骤230、被监控主机执行所述监控信息采集程序,对采集的数据信息大小进行判断;
[0029]步骤240,若所述采集的数据信息值小于规定阈值,则利用所述ansible分发工具返回值采集;
[0030]步骤250,若所述采集的数据信息大小大于规定阈值,则自定义脚本在被监控主机端以文档形式推送回主程序。
[0031]结合本专利技术第三种可能的实施方式,第五种可能的实施方式中,所述步骤200还包括:
[0032]步骤260、被监控主机执行所述监控信息采集程序,对采集的数据信息大小进行判断;
[0033]步骤270、若所述采集的数据信息值小于规定阈值,则利用主程序注册变量拉回。
[0034]结合本专利技术第四种可能的实施方式,第六种可能的实施方式中,所述步骤300包括:
[0035]步骤310、所述监控信息采集程序从获取的数据信息中提取特定字段,并对特定字段进行列表存储,获取存储列表;
[0036]步骤320、将被监控主机中的监控对象抽象多个对象子表;
[0037]步骤330、根据数据清洗算法,对获取的数据信息进行清洗;
[0038]步骤340、将清洗后的数据与对象子表进行批量关联。
[0039]结合本专利技术第六种可能的实施方式,第七种可能的实施方式中,所述步骤310包括:
[0040]步骤311、建立hive表,对所述监控信息采集程序推送过来的hdfs数据进行分类;
[0041]步骤312、从分类后的hdfs数据提取字段数据信息并将所述字段数据信息存储在所述hive表中。
[0042]结合本专利技术第七种可能的实施方式,第八种可能的实施方式中,所述步骤400包括:
[0043]步骤410、对被监控主机多维度监控;
[0044]步骤420、根据对被监控主机监控维度,对监控数据进行多维度告警。
[0045]结合本专利技术第八种可能的实施方式,第九种可能的实施方式中,所述步骤400还包括:
[0046]步骤430、将告警结果进行历史记录;
[0047]步骤440、通过web页面告警、短信告警、邮件告警对所述告警结果进行集中呈现。
[0048]实施本专利技术中的大规模集群运维监控方法,通过在主控端部署ansible分发工具,并利用ansible分发工具将监控信息采集程序分发给集群中被监控主机;利用监控信息采集程序获取集群中被监控主机数据信息;利用大数据对主机数据信息进行清洗并关联入库;设置告警策略并在控制端进行集中展现。有益效果如下:
[0049](1)部署简单、全流程可追溯。不需要提前在被监控主机上安装任何程序,采集完成后机器也无文件残留,对监控主机影响小,同时采集、提取到监控告警每一步流程均有实时结果反馈,方便监控缺失、故障的情况下问题定位、解决。
[0050](2)历史数据追溯时间长。历史数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大规模集群运维监控方法,用于对大规模集群进行监控,其特征在于,包括:步骤100、在主控端部署ansible分发工具,并利用所述ansible分发工具将监控信息采集程序分发给集群中被监控主机;步骤200、利用监控信息采集程序获取集群中被监控主机数据信息;步骤300、利用大数据对所述主机数据信息进行清洗并关联入库;步骤400、设置告警策略并对告警进行集中展现。2.根据权利要求1所述的大规模集群运维监控方法,其特征在于,所述步骤100包括:步骤110、对所述ansible分发工具进行第一文件配置,以获取被监控主机第一信息;步骤120、对所述ansible分发工具进行第二文件配置,以获取被监控主机第二信息;其中,所述第一文件配置为INVENTORY文件配置,第一信息为被监控主机信息,所述第二文件配置为json格式文件配置,第二信息包括单个特定监测主机的账号密码、数据路径、程序名称、配置参数值、状态监测脚本路径。3.根据权利要求2所述的大规模集群运维监控方法,其特征在于,所述步骤100还包括:步骤130、嵌套使用所述ansible分发工具中的多个分发模块;步骤140、启动分发程序,将所述监控信息采集程序并发给集群中被监控主机;其中,所述分发模块包括ping模块、setup模块、script模块、register模块及command模块。4.根据权利要求3所述的大规模集群运维监控方法,其特征在于,所述步骤200包括:步骤210、采用python编写所述监控信息采集程序;步骤220、在所述监控信息采集程序嵌入拉取模块及定制模块;其中,所述拉取模块用于控制端主程序从被监控主机拉取数据信息,所述定制模块用于通过程序定制使得所述监控信息采集程序支持python格式文件、java格式文件。5.根据权利要求4所述的大规模集群运维监控方法,其特征在于,所述...

【专利技术属性】
技术研发人员:曾喜林昀赵先明
申请(专利权)人:北京红山信息科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1