一种数据表的数据清理方法及装置制造方法及图纸

技术编号:29253934 阅读:24 留言:0更新日期:2021-07-13 17:24
本发明专利技术提供一种数据表的数据清理方法及装置,涉及大数据技术领域。所述方法包括:建立待清理数据表清单;根据表清单拆分规则,将所述待清理数据表清单拆分为多个子清单;其中,所述表清单拆分规则是预设的;遍历各个子清单,基于数据清理规则对每个数据表的分区进行筛选,获得分区清单;其中,所述数据清理规则是预设的;基于所述分区清单生成清理脚本,并执行所述清理脚本完成数据清理。所述装置用于执行上述方法。发明专利技术实施例提供的数据表的数据清理方法及装置,提高了数据清理的效率。

【技术实现步骤摘要】
一种数据表的数据清理方法及装置
本专利技术涉及大数据
,具体涉及一种数据表的数据清理方法及装置。
技术介绍
目前,随着大数据的时代来临,以Hadoop技术为基础的分布式系统广泛的应用在各个领域。Hive表作为分布式系统中的重要组件,也得到了广泛的应用。在大数据时代,数据的规模急剧膨胀,存储空间随之增加。由于数据体量大、存储成本高等原因限制,企业在完成数据分析和挖掘之后,都会定期对数据进行清理。现有技术中,主要采用人工的方式对数据进行清理,但由于数据体量庞大,以人工的方式对数据进行清理成本高且效率低。而且,由于后期项目的考虑,在清理数据的同时,还需要从庞大的清理数据中保留部分数据,人工筛选保留数据效率也很低。因此,如何提出一种数据清理方法,能够快速对Hive表数据进行清理,本领域需要解决的重要课题。
技术实现思路
针对现有技术中的问题,本专利技术实施例提供一种数据表的数据清理方法及装置,能够至少部分地解决现有技术中存在的问题。一方面,本专利技术提出一种数据表的数据清理方法,包括:>建立待清理数据表清本文档来自技高网...

【技术保护点】
1.一种数据表的数据清理方法,其特征在于,包括:/n建立待清理数据表清单;/n根据表清单拆分规则,将所述待清理数据表清单拆分为多个子清单;其中,所述表清单拆分规则是预设的;/n遍历各个子清单,基于数据清理规则对每个数据表的分区进行筛选,获得分区清单;其中,所述数据清理规则是预设的;/n基于所述分区清单生成清理脚本,并执行所述清理脚本完成数据清理。/n

【技术特征摘要】
1.一种数据表的数据清理方法,其特征在于,包括:
建立待清理数据表清单;
根据表清单拆分规则,将所述待清理数据表清单拆分为多个子清单;其中,所述表清单拆分规则是预设的;
遍历各个子清单,基于数据清理规则对每个数据表的分区进行筛选,获得分区清单;其中,所述数据清理规则是预设的;
基于所述分区清单生成清理脚本,并执行所述清理脚本完成数据清理。


2.根据权利要求1所述的方法,其特征在于,所述表清单拆分规则包括:
基于所述待清理数据表清单对应的数据表的总数量和预设子清单数量对所述待清理数据表清单按照所述预设子清单数量进行均匀拆分;或者
基于所述待清理数据表清单对应的数据表的总数量和各个数据表的大小对所述待清理数据表清单进行综合拆分,使每个子清单对应的数据表的数量小于第一阈值且每个子清单对应的数据表的总大小小于第二阈值。


3.根据权利要求1所述的方法,其特征在于,所述遍历各个子清单,基于数据清理规则对每个数据表的分区进行筛选包括:
并发遍历各个子清单,基于数据清理规则对每个数据表的分区进行筛选。


4.根据权利要求1所述的方法,其特征在于,所述数据清理规则包括:
对预设分区段内的数据进行清理。


5.根据权利要求1所述的方法,其特征在于,所述基于所述分区清单生成清理脚本包括:
根据数据...

【专利技术属性】
技术研发人员:李丹峰
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1