基于Hadoop集群的冷数据存储和回热分析方法及系统技术方案

技术编号:39329384 阅读:7 留言:0更新日期:2023-11-12 16:06
本发明专利技术提供一种基于Hadoop集群的冷数据存储和回热分析方法及系统,包括:获取Hadoop集群中的原始业务数据;对所述原始业务数据进行筛选,以挑选出冷数据;获取所述冷数据的配置信息;利用所述配置信息存储所述冷数据;对所述冷数据进行回热,以调用所述冷数据。通过对原始业务数据进行筛选,使得冷数据的选择方式不仅仅考虑存储时间或调取次数,避免重要冷数据的误删除;通过根据配置信息存储冷数据,使得不同配置信息的冷数据被分类保存,从而在后续回热时能够降低运营成本,解决了现有冷数据处理方式运维成本高且易造成重要业务数据丢失的问题。丢失的问题。丢失的问题。

【技术实现步骤摘要】
基于Hadoop集群的冷数据存储和回热分析方法及系统


[0001]本专利技术涉及计算机大数据集群
,特别涉及一种基于Hadoop集群的冷数据存储和回热分析方法及系统。

技术介绍

[0002]依托大数据集群技术的高速发展,Hadoop集群的广泛使用。基于Hadoop,用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low

cost)硬件上,而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
[0003]然而,随着长时间业务沉淀,Hadoop集群中会积攒过多的业务数据。这些业务数据中的部分数据常年不被使用,此类数据一般称为冷数据。通常,利用一张历史年份表来区分冷数据和热数据,也就是说,将存放时间超过一定期限的业务数据认定为冷数据;又或者,根据对业务数据的访问次数来区分冷数据和热数据,也就是说,当访问次数低于设定的访问次数阀值的数据认定为冷数据。对于被认定为冷数据的业务数据,一般处理方式是将冷数据迁移至额外备份的Hadoop集群,亦或者暴力删除。
[0004]如此,若采用迁移备份的方式处理冷数据,则需要搭建备用Hadoop集群,会增加运维成本和人力成本,且部分冷数据实质上已被丢弃,存储这些冷数据会浪费硬件资源;由于现有的冷数据划分方式单一且不够科学,会将一些重要、存放时间久、但不常用的业务数据误划分为冷数据,若采用暴力删除的方式处理冷数据,则会导致重要业务数据的丢失。

技术实现思路

[0005]本专利技术的目的在于提供一种基于Hadoop集群的冷数据存储和回热分析方法及系统,以解决现有冷数据处理方式运维成本高且易造成重要业务数据丢失的问题。
[0006]为解决上述技术问题,本专利技术提供一种基于Hadoop集群的冷数据存储和回热分析方法,包括:
[0007]获取Hadoop集群中的原始业务数据;
[0008]对所述原始业务数据进行筛选,以挑选出冷数据;
[0009]获取所述冷数据的配置信息;
[0010]利用所述配置信息存储所述冷数据;
[0011]对所述冷数据进行回热,以调用所述冷数据。
[0012]可选的,在所述的基于Hadoop集群的冷数据存储和回热分析方法中,所述对所述原始业务数据进行筛选,以挑选出冷数据的方法包括:
[0013]获取所述原始业务数据对应的作业;
[0014]搭建调度指标表,所述调度指标表包含若干指标;
[0015]利用所述调度指标表中的所述指标判断所述作业为已停作业或运行作业;
[0016]若为已停作业,则根据血缘关系挑选所述已停作业对应的原始业务数据中的冷数据;
[0017]若为运行作业,则根据血缘关系和存储周期挑选所述运行作业对应的原始业务数据中的冷数据。
[0018]可选的,在所述的基于Hadoop集群的冷数据存储和回热分析方法中,所述血缘关系包括血缘系数;所述血缘系数的计算方式为:
[0019]数据接入层的作业的血缘系数为:Blood rate=Blood out;
[0020]数据应用层的作业的血缘系数为:Blood rate=Blood in;
[0021]数据公共层的作业的血缘系数为:Blood rate=Blood in
×
Blood out;
[0022]其中,Blood out表示依赖此作业的数量;Blood in表示当前作业依赖其他作业的数量。
[0023]可选的,在所述的基于Hadoop集群的冷数据存储和回热分析方法中,所述血缘关系还包括冷系数;所述对所述原始业务数据进行筛选,以挑选出冷数据的方法包括:
[0024]若为已停作业,则将挑选出的冷数据的冷系数设置为10;
[0025]若为运行作业,且符合所述调度指标表中的指标,则根据存储周期,将存储周期大于预设周期阈值的冷数据的冷系数设置为1;以及,根据血缘关系,将挑选出的冷数据的冷系数设置为8;
[0026]若为运行作业,且不符合所述调度指标表中的指标,则根据血缘关系,将血缘系数小于预设血缘系数阈值的冷数据的冷系数设置为5。
[0027]可选的,在所述的基于Hadoop集群的冷数据存储和回热分析方法中,所述对所述原始业务数据进行筛选,以挑选出冷数据的方法还包括:对挑选出的冷数据的冷系数进行修正。
[0028]可选的,在所述的基于Hadoop集群的冷数据存储和回热分析方法中,所述利用所述配置信息存储所述冷数据的方法包括:
[0029]根据所述配置信息从Hadoop集群中下载所述冷数据所对应的HDFS文件;
[0030]对所述HDFS文件进行无损压缩,并存储至对应的存储单元桶。
[0031]可选的,在所述的基于Hadoop集群的冷数据存储和回热分析方法中,所述利用所述配置信息存储所述冷数据的方法还包括:
[0032]根据冷数据的存储周期设置存储单元桶的存储策略,包括:设置标准存储单元桶、低频存储单元桶和长期存储单元桶;
[0033]在获取HDFS文件时,将其存档至标准存储单元桶中;
[0034]当所述HDFS文件在所述标准存储单元桶中存储30天后,将其存档至低频存储单元桶中;
[0035]当所述HDFS文件在所述低频存储单元桶中存储一年后,将其存档至长期存储单元桶。
[0036]可选的,在所述的基于Hadoop集群的冷数据存储和回热分析方法中,所述对所述冷数据进行回热,以调用所述冷数据的方法包括:
[0037]获取所述冷数据的回热标志位信息;
[0038]根据所述回热标志位信息从所述存储单元桶中下载所述冷数据对应的HDFS文件;
[0039]判断下载所述HDFS文件的密钥与存储所述HDFS文件的密钥是否一致,若一致,则将所述冷数据连同所述HDFS文件回滚至Hadoop集群中;
[0040]修改所述冷数据的配置信息。
[0041]为解决上述技术问题,本专利技术还提供一种基于Hadoop集群的冷数据存储和回热分析系统,用于进行如上任一项所述的基于Hadoop集群的冷数据存储和回热分析方法,所述基于Hadoop集群的冷数据存储和回热分析系统包括筛选模块和回热模块;所述筛选模块用于对Hadoop集群中的原始业务数据进行筛选以得到冷数据;所述回热模块用于存储冷数据,并对存储的冷数据进行回热以调用所述冷数据。
[0042]可选的,在所述的基于Hadoop集群的冷数据存储和回热分析系统中,所述筛选模块包括数据获取单元和数据筛选单元;所述数据获取单元用于获取Hadoop集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Hadoop集群的冷数据存储和回热分析方法,其特征在于,包括:获取Hadoop集群中的原始业务数据;对所述原始业务数据进行筛选,以挑选出冷数据;获取所述冷数据的配置信息;利用所述配置信息存储所述冷数据;对所述冷数据进行回热,以调用所述冷数据。2.根据权利要求1所述的基于Hadoop集群的冷数据存储和回热分析方法,其特征在于,所述对所述原始业务数据进行筛选,以挑选出冷数据的方法包括:获取所述原始业务数据对应的作业;搭建调度指标表,所述调度指标表包含若干指标;利用所述调度指标表中的所述指标判断所述作业为已停作业或运行作业;若为已停作业,则根据血缘关系挑选所述已停作业对应的原始业务数据中的冷数据;若为运行作业,则根据血缘关系和存储周期挑选所述运行作业对应的原始业务数据中的冷数据。3.根据权利要求2所述的基于Hadoop集群的冷数据存储和回热分析方法,其特征在于,所述血缘关系包括血缘系数;所述血缘系数的计算方式为:数据接入层的作业的血缘系数为:Blood rate=Blood out;数据应用层的作业的血缘系数为:Blood rate=Bloodin;数据公共层的作业的血缘系数为:Blood rate=Bloodin
×
Blood out;其中,Blood out表示依赖此作业的数量;Bloodin表示当前作业依赖其他作业的数量。4.根据权利要求3所述的基于Hadoop集群的冷数据存储和回热分析方法,其特征在于,所述血缘关系还包括冷系数;所述对所述原始业务数据进行筛选,以挑选出冷数据的方法包括:若为已停作业,则将挑选出的冷数据的冷系数设置为10;若为运行作业,且符合所述调度指标表中的指标,则根据存储周期,将存储周期大于预设周期阈值的冷数据的冷系数设置为1;以及,根据血缘关系,将挑选出的冷数据的冷系数设置为8;若为运行作业,且不符合所述调度指标表中的指标,则根据血缘关系,将血缘系数小于预设血缘系数阈值的冷数据的冷系数设置为5。5.根据权利要求4所述的基于Hadoop集群的冷数据存储和回热分析方法,其特征在于,所述对所述原始业务数据进行筛选,以挑选出冷数据的方法还包括:对挑选出的冷数据的冷系数进行修正。6.根据权利要求1所述的基于Hadoop集...

【专利技术属性】
技术研发人员:杜量吕召彪赵文博周丽萍曾春强杨帆
申请(专利权)人:联通广东产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1