一种基于MapReduce技术的集群监控原始数据抽样计算和存储方法技术

技术编号:24331049 阅读:66 留言:0更新日期:2020-05-29 19:37
本发明专利技术公开了一种基于MapReduce技术的集群监控原始数据抽样计算和存储方法,包括:S1.获取集群监控采集指标模板数据;S2.进行集群监控采集指标模板数据与集群监控指标原始数据抽样计算,并将计算结果处理输出到集群监控指标抽样表中;S3.通过集群监控指标抽样表查询数据;本发明专利技术方法采用MapReduce计算模型,实现集群监控采集的大数据抽样计算,并使用HBase存储集群监控指标抽样数据,解决了在大数据平台下原始数据查询慢的问题。

【技术实现步骤摘要】
一种基于MapReduce技术的集群监控原始数据抽样计算和存储方法
本专利技术涉及数据处理
,具体而言,为一种基于MapReduce技术的集群监控原始数据抽样计算和存储方法。
技术介绍
随着互联网技术,大数据的快速发展,高性能计算机的应用领域越来越广泛,高性能服务器集群部署越来越多,集群监控的应用要求越来越高,同时产生了大量的集群监控采集指标数据。这些数据如何将其高效的存储与管理,已经成为一个迫切需要解决的问题。Hadoop是由Apache基金会组织开发的一个开源的分布式大数据处理平台,它具有易扩展、高容错、可靠、高效等特点,成为近几年应用最广泛的开源大数据处理平台,其核心是HDFS,MapReduce(Hadoop平台分式计算海量数据计算模型)。HBase使用Hadoop的分布式文件系统HDFS作为底层存储,是一个分布式、面向列的NoSQL数据库,它适合于存储大数据,支持单条记录的快速查询,在任意指定位置单条或批量添加、删除数据,并且支持MapReduce框架做分布式计算操作。目前越来越多的科研和企业单位都在应用Hadoop和Hbase,并取得了一定的成果。但随着时间的推移,集群监控指标原始数据指数增长,根据原始数据做分析和应用,性能极其低下;且由于Hadoop环境硬件资源配置的限制(存储空间,内存大小,CPU处理核数等),不能支持太大数据和计算,检索数据性能方面仍有很多不足。有鉴于此,特提出本专利技术。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种基于MapReduce技术的集群监控原始数据抽样计算和存储方法,以利于提高集群监控数据的查询性能。为了实现上述目的,本专利技术的技术方案为:一种基于MapReduce技术的集群监控原始数据抽样计算和存储方法,包括:S1.获取集群监控采集指标模板数据;S2.进行集群监控采集指标模板数据与集群监控指标原始数据抽样计算,并将计算结果处理输出到集群监控指标抽样表中,其中,在Map阶段对获取到的集群监控采集指标原始数据进行:过滤掉错误数据,然后根据集群监控采集指标模板数据和集群监控采集指标原始数据做对比,把符合的数据筛选出来,分成若干个数据集,生成新的<Key,Value>数据,输出到Reduce阶段;Reduce阶段:遍历Map阶段输出的若干数据集,对每一类指标值的数据集进行汇总总量,并计算平均值、最大值和最小值;S3.将计算出的平均值、最大值和最小值,重新组装成<Key,Value>数据,输出到集群监控指标抽样表中,通过集群监控指标抽样表查询数据。优选的,上述的基于MapReduce技术的集群监控原始数据抽样计算和存储方法中,S1.获取集群监控采集指标模板数据中,从MySql关系型数据库获取集群监控采集指标模板数据。优选的,上述的基于MapReduce技术的集群监控原始数据抽样计算和存储方法中,S2.进行集群监控采集指标模板数据与集群监控指标原始数据抽样计算,并将计算结果处理输出到集群监控指标抽样表中,包括S21.设置定时任务程序;S22.调用MapReduce程序进行抽样、对比计算;S23.计算结果重新组装成新的集群监控采集指标数据输出结果到Hbase数据库中。优选的,上述的基于MapReduce技术的集群监控原始数据抽样计算和存储方法中,S22.调用MapReduce程序进行抽样、对比计算,包括编写一个分布式计算MapReduce程序,查询Hbase存储的集群监控采集指标原始数据。优选的,上述的基于MapReduce技术的集群监控原始数据抽样计算和存储方法中,S3.通过集群监控指标抽样表查询数据,包括对集群监控指标抽样数据明确指标名,指定时间点的查询:对集群监控指标抽样数据明确指标名,指定时间段的查询;对集群监控指标抽样数据指定时间段的查询。优选的,上述的基于MapReduce技术的集群监控原始数据抽样计算和存储方法中,所述对集群监控指标抽样数据明确指标名,指定时间点的查询,包括通过Hbase自身索引结构及算法,使用Hbaseapi接口调用get方法根据RowKey获取一行数据。优选的,上述的基于MapReduce技术的集群监控原始数据抽样计算和存储方法中,所述对集群监控指标抽样数据明确指标名,指定时间段的查询,包括通过Hbase自身索引结构及算法,使用Hbaseapi接口调用Scan方法根据StartRow指定查询,获取符合目标要求的Hbase一批数据。优选的,上述的基于MapReduce技术的集群监控原始数据抽样计算和存储方法中,所述对集群监控指标抽样数据指定时间段的查询,包括通过Hbase自身索引结构及算法,使用Hbaseapi接口调用Scan方法根据TimeRange函数查询,获取获取目标要求的Hbase一批数据。本专利技术还提供了一种用于实施上述的基于MapReduce技术的集群监控原始数据抽样计算和存储方法的系统。与现有技术相比,本专利技术的有益效果为:本专利技术方法采用MapReduce计算模型,实现集群监控采集的大数据抽样计算,并使用HBase存储集群监控指标抽样数据,解决了在大数据平台下原始数据查询慢的问题。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。图1为本专利技术基于MapReduce技术的集群监控原始数据抽样计算和存储方法的一个具体实施例中,集群监控采集指标模板数据图表;图2为本专利技术方法的一个具体实施例中,Hbase存储的集群监控采集指标原始数据图表;图3为本专利技术方法的一个具体实施例中,对集群监控指标原始数据抽样计算与存储的流程示意图;图4为本专利技术方法的一个具体实施例中,集群监控指标抽样表结构图表。具体实施方式下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只作为示例,而不能以此来限制本专利技术的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。一种基于MapReduce技术的集群监控原始数据抽样计算和存储方法,包括:获取集群监控采集指标模板数据;进行集群监控采集指标模板数据与集群监控指标原始数据抽样计算,并将计算结果处理输出到集群监控指标抽样表中;通过集群监控指标抽样表查询数据。具体的,本专利技术方法给出的一个具体实施例中:S1.获取集群监控采集指标模板数据集群监控指标模板数据是根据业务需求定制的一些指标值,指标值可以动态扩展,存储在关系型MySql数据库中,如图1所示的。...

【技术保护点】
1.一种基于MapReduce技术的集群监控原始数据抽样计算和存储方法,其特征在于,包括:/nS1.获取集群监控采集指标模板数据;/nS2.进行集群监控采集指标模板数据与集群监控指标原始数据抽样计算,并将计算结果处理输出到集群监控指标抽样表中,其中,在Map阶段对获取到的集群监控采集指标原始数据进行:过滤掉错误数据,然后根据集群监控采集指标模板数据和集群监控采集指标原始数据做对比,把符合的数据筛选出来,分成若干个数据集,生成新的<Key,Value>数据,输出到Reduce阶段;/nReduce阶段:遍历Map阶段输出的若干数据集,对每一类指标值的数据集进行汇总总量,并计算平均值、最大值和最小值;/nS3.将计算出的所述平均值、最大值和最小值,重新组装成<Key,Value>数据,输出到集群监控指标抽样表中,通过集群监控指标抽样表查询数据。/n

【技术特征摘要】
1.一种基于MapReduce技术的集群监控原始数据抽样计算和存储方法,其特征在于,包括:
S1.获取集群监控采集指标模板数据;
S2.进行集群监控采集指标模板数据与集群监控指标原始数据抽样计算,并将计算结果处理输出到集群监控指标抽样表中,其中,在Map阶段对获取到的集群监控采集指标原始数据进行:过滤掉错误数据,然后根据集群监控采集指标模板数据和集群监控采集指标原始数据做对比,把符合的数据筛选出来,分成若干个数据集,生成新的<Key,Value>数据,输出到Reduce阶段;
Reduce阶段:遍历Map阶段输出的若干数据集,对每一类指标值的数据集进行汇总总量,并计算平均值、最大值和最小值;
S3.将计算出的所述平均值、最大值和最小值,重新组装成<Key,Value>数据,输出到集群监控指标抽样表中,通过集群监控指标抽样表查询数据。


2.根据权利要求1所述的基于MapReduce技术的集群监控原始数据抽样计算和存储方法,其特征在于,所述S1.获取集群监控采集指标模板数据中,从MySql关系型数据库获取集群监控采集指标模板数据。


3.根据权利要求2所述的基于MapReduce技术的集群监控原始数据抽样计算和存储方法,其特征在于,所述S2.进行集群监控采集指标模板数据与集群监控指标原始数据抽样计算,并将计算结果处理输出到集群监控指标抽样表中,包括
S21.设置定时任务程序;
S22.调用MapReduce程序进行抽样、对比计算;
S23.计算结果重新组装成新的集群监控采集指标数据输出结果到Hbase数据库中。


4.根据权利要求3所述的基于MapReduce技术的集群监控原始数据抽样计算和存储方法,其特征在于,所述S22....

【专利技术属性】
技术研发人员:苗海锋张晋锋刘瑞贤毕研儒沙超群历军
申请(专利权)人:曙光信息产业北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1