数据清理方法、装置和服务器制造方法及图纸

技术编号:30330807 阅读:27 留言:0更新日期:2021-10-10 00:35
本说明书提供了数据清理方法、装置和服务器。基于该方法,可以先获取用户基于预设的设置规则自定义的目标配置参数;根据目标配置参数,通过与目标数据库的连接,获取相应的元数据信息;根据预设的生成规则、目标配置参数和元数据信息,生成目标备份程序文件和目标清理程序文件;再根据预设的均衡拆分规则,先调用多个线程并行执行所述目标备份程序文件,以对所述目标数据进行磁带备份;进而根据预设的均衡拆分规则,调用多个线程并行执行所述目标清理程序文件,以删除清理目标数据库中的目标数据。通过引入并综合利用用户自定义目标配置参数和动态采集的元数据信息,能灵活、高效地实现针对Hive数据仓库中数据的自动备份和清理。现针对Hive数据仓库中数据的自动备份和清理。现针对Hive数据仓库中数据的自动备份和清理。

【技术实现步骤摘要】
数据清理方法、装置和服务器


[0001]本说明书属于大数据处理
,尤其涉及数据清理方法、装置和服务器。

技术介绍

[0002]在大数据处理
,为了能应对处理大规模的海量业务数据,通常会采用基于分布式系统的Hive数据仓库来代替传统的数据仓库,以对所接入的业务数据进行存储和管理。
[0003]其中,上述Hive数据仓库的底层大多是基于Hadoop分布式文件系统。而受限于Hadoop分布式文件系统的系统特性,基于现有的数据清理方法,往往无法灵活、高效地对数据仓库中数据自动进行较为精细的清理,导致用户往往需要耗费大量处理时间和处理资源来清理、维护数据仓库中存储的数据。
[0004]针对上述问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本说明书提供了一种数据清理方法、装置和服务器,能充分兼顾并利用Hive数据仓库的系统特性,灵活、高效地实现针对Hive数据仓库中数据的自动备份和清理。
[0006]本说明书实施例提供了一种数据清理方法,包括:
[0007]获取目标配置参数;其中,所述目标配置参数至少包含有与待清理的目标数据关联的目标数据库名、目标数据表名和目标字段;目标数据库包括基于Hadoop的Hive数据仓库;所述目标配置参数为基于预设的设置规则自定义的配置参数;
[0008]根据所述目标配置参数,通过与目标数据库的连接,获取相应的元数据信息;
[0009]根据预设的生成规则、所述目标配置参数和所述元数据信息,生成目标备份程序文件和目标清理程序文件;
[0010]根据预设的均衡拆分规则,调用多个线程并行执行所述目标备份程序文件,以对所述目标数据进行磁带备份;
[0011]根据预设的均衡拆分规则,调用多个线程并行执行所述目标清理程序文件,以删除所述目标数据库中的目标数据。
[0012]在一些实施例中,所述目标配置参数还包含有与目标数据相关的目标系统名、归档周期类型、频率类型、偏移量参数。
[0013]在一些实施例中,在获取目标配置参数之后,所述方法还包括:根据预设的校验规则,对目标配置参数进行预设的校验处理。
[0014]在一些实施例中,根据预设的生成规则、所述目标配置参数和所述元数据信息,生成目标备份程序文件和目标清理程序文件,包括:
[0015]获取并根据归档周期类型,确定所述目标数据是否属于分区数据;
[0016]在确定所述目标数据属于分区数据的情况下,根据元数据信息生成针对目标数据的备份语句和清理语句;
[0017]根据所述备份语句,生成目标备份程序文件;根据所述清理语句,生成目标清理程序文件。
[0018]在一些实施例中,在获取并根据归档周期类型,确定所述目标数据是否属于分区数据之前,所述方法还包括:
[0019]根据目标配置参数,检测当前的执行时间是否与频率类型、偏移量参数匹配;
[0020]在确定当前的执行时间与频率类型、偏移量参数匹配的情况下,根据目标配置参数和元数据信息,核对目标数据库、目标数据表,以及目标字段。
[0021]在一些实施例中,根据预设的均衡拆分规则,调用多个线程并行执行所述目标备份程序文件,包括:
[0022]根据元数据信息,确定各个分区的数据大小;
[0023]根据所述各个分区的数据大小,将目标备份程序文件所包含的备份语句拆分成多个备份任务;
[0024]将所述多个备份任务分配给多个线程;并调用多个线程并行执行所分配到的备份任务。
[0025]在一些实施例中,根据预设的均衡拆分规则,调用多个线程并行执行所述目标清理程序文件,包括:
[0026]根据元数据信息,确定各个分区的数据大小;
[0027]根据所述各个分区的数据大小,将目标清理程序文件所包含的清理语句拆分成多个清理任务;
[0028]将所述多个清理任务分配给多个线程;并调用多个线程并行执行所分配到的清理任务。
[0029]在一些实施例中,在将所述多个清理任务分配给多个线程;并调用多个线程并行执行所分配到的清理任务之后,所述方法还包括:
[0030]获取多个线程中的各个线程在执行所分配的清理任务时的清理执行日志;
[0031]根据所述清理执行日志,检测是否存在清理任务异常;
[0032]在检测到清理任务异常的情况下,生成异常提示信息。
[0033]本说明书实施例还提供了一种数据清理装置,包括:
[0034]第一获取模块,用于获取目标配置参数;其中,所述目标配置参数至少包含有与待清理的目标数据关联的目标数据库名、目标数据表名和目标字段;目标数据库包括基于Hadoop的Hive数据仓库;所述目标配置参数为基于预设的设置规则自定义的配置参数;
[0035]第二获取模块,用于根据所述目标配置参数,通过与目标数据库的连接,获取相应的元数据信息;
[0036]生成模块,用于根据预设的生成规则、所述目标配置参数和所述元数据信息,生成目标备份程序文件和目标清理程序文件;
[0037]第一执行模块,用于根据预设的均衡拆分规则,调用多个线程并行执行所述目标备份程序文件,以对所述目标数据进行磁带备份;
[0038]第二执行模块,用于根据预设的均衡拆分规则,调用多个线程并行执行所述目标清理程序文件,以删除所述目标数据库中的目标数据。
[0039]本说明书实施例还提供了一种服务器,包括处理器以及用于存储处理器可执行指
令的存储器,所述处理器执行所述指令时实现以下步骤:获取目标配置参数;其中,所述目标配置参数至少包含有与待清理的目标数据关联的目标数据库名、目标数据表名和目标字段;目标数据库包括基于Hadoop的Hive数据仓库;所述目标配置参数为基于预设的设置规则自定义的配置参数;根据所述目标配置参数,通过与目标数据库的连接,获取相应的元数据信息;根据预设的生成规则、所述目标配置参数和所述元数据信息,生成目标备份程序文件和目标清理程序文件;根据预设的均衡拆分规则,调用多个线程并行执行所述目标备份程序文件,以对所述目标数据进行磁带备份;根据预设的均衡拆分规则,调用多个线程并行执行所述目标清理程序文件,以删除所述目标数据库中的目标数据。
[0040]本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被计算机设备执行时实现:获取目标配置参数;其中,所述目标配置参数至少包含有与待清理的目标数据关联的目标数据库名、目标数据表名和目标字段;目标数据库包括基于Hadoop的Hive数据仓库;所述目标配置参数为基于预设的设置规则自定义的配置参数;根据所述目标配置参数,通过与目标数据库的连接,获取相应的元数据信息;根据预设的生成规则、所述目标配置参数和所述元数据信息,生成目标备份程序文件和目标清理程序文件;根据预设的均衡拆分规则,调用多个线程并行执行所述目标备份程序文件,以对所述目标数据进行磁带备份;根据预设的均衡拆分规则,调用多个线程并行执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据清理方法,其特征在于,包括:获取目标配置参数;其中,所述目标配置参数至少包含有与待清理的目标数据关联的目标数据库名、目标数据表名和目标字段;目标数据库包括基于Hadoop的Hive数据仓库;所述目标配置参数为基于预设的设置规则自定义的配置参数;根据所述目标配置参数,通过与目标数据库的连接,获取相应的元数据信息;根据预设的生成规则、所述目标配置参数和所述元数据信息,生成目标备份程序文件和目标清理程序文件;根据预设的均衡拆分规则,调用多个线程并行执行所述目标备份程序文件,以对所述目标数据进行磁带备份;根据预设的均衡拆分规则,调用多个线程并行执行所述目标清理程序文件,以删除所述目标数据库中的目标数据。2.根据权利要求1所述的方法,其特征在于,所述目标配置参数还包含有与目标数据相关的目标系统名、归档周期类型、频率类型、偏移量参数。3.根据权利要求2所述的方法,其特征在于,在获取目标配置参数之后,所述方法还包括:根据预设的校验规则,对目标配置参数进行预设的校验处理。4.根据权利要求2所述的方法,其特征在于,根据预设的生成规则、所述目标配置参数和所述元数据信息,生成目标备份程序文件和目标清理程序文件,包括:获取并根据归档周期类型,确定所述目标数据是否属于分区数据;在确定所述目标数据属于分区数据的情况下,根据元数据信息生成针对目标数据的备份语句和清理语句;根据所述备份语句,生成目标备份程序文件;根据所述清理语句,生成目标清理程序文件。5.根据权利要求4所述的方法,其特征在于,在获取并根据归档周期类型,确定所述目标数据是否属于分区数据之前,所述方法还包括:根据目标配置参数,检测当前的执行时间是否与频率类型、偏移量参数匹配;在确定当前的执行时间与频率类型、偏移量参数匹配的情况下,根据目标配置参数和元数据信息,核对目标数据库、目标数据表,以及目标字段。6.根据权利要求5所述的方法,其特征在于,根据预设的均衡拆分规则,调用多个线程并行执行所述目标备份程序文件,包括:根据元数据信息,确定各个分区的数据大小;根据所述各个分区的数据大...

【专利技术属性】
技术研发人员:王备王伟沈栋聂冬琴
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1