【技术实现步骤摘要】
Hive数据自动下线方法、装置、设备及存储介质
[0001]本专利技术涉及数据处理
,尤其涉及
Hive
数据自动下线方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]现如今,大数据技术已经普及,很多企业都利用该技术建立自己的
Hive
数据库
。
然而,数据的产出,往往伴随着计算资源的消耗和存储资源的占用,且随着时间的推移,数据库会累积大量无用的数据,浪费资源
。
[0003]Hive
数据库中,定时任务调度系统在执行调度任务时,会使用或产出数据,在业务开发配置时,也会配置任务需要依赖的数据
。
在
Hive
数据库长期迭代的情况下,会存在大量的无用数据
。
有些是为满足当时的业务需求而开发的,目前已经不被使用;有些是临时分析产出的中间数据;有些是可以被新的版本替换的数据
。
这些数据会消耗大量宝贵的计算和存储资源,造成浪费
。
因此,在相关技术中,处理
Hive
数据库中的无用数据时,会通过构建数据和任务的依赖关系图,从而确定数据和任务间的依赖关系,将没被依赖的数据发送给数据的相关负责人,在其确认后,做下线操作
。
[0004]然而,现有技术中有几个显著的问题:
1、
任务与数据的依赖和产出,需要人工配置,因此会存在漏配
、
错配
、< ...
【技术保护点】
【技术特征摘要】
1.
一种
Hive
数据自动下线方法,其特征在于,所述方法包括:获取
Hive
表数据及任务元信息,并获取与所述
Hive
表数据及所述任务元信息对应的数据日志;基于所述数据日志
、
所述
Hive
表数据和所述任务元信息之间的关联关系确定数据流转链图,并基于所述数据流转链图确定数据状态表;获取预设的数据下线策略,基于所述数据下线策略和所述数据状态表确定候选下线数据;根据预设的数据下线操作策略,对所述候选下线数据进行对应数据下线操作
。2.
根据权利要求1所述的方法,其特征在于,所述获取
Hive
表数据及任务元信息,并获取与所述
Hive
表数据及所述任务元信息对应的数据日志,包括:从待分析
Hive
数据库中获取所述
Hive
表数据;从任务调度系统获取所述任务元信息;其中,所述任务元信息至少包括导入类任务元信息
、
加工类任务元信息和导出类任务元信息;从
HDFS
系统获取所述数据日志;其中,所述数据日志至少包括读写日志和用户行为日志
。3.
根据权利要求1所述的方法,其特征在于,所述基于所述数据日志
、
所述
Hive
表数据和所述任务元信息之间的关联关系确定数据流转链图,并基于所述数据流转链图确定数据状态表,包括:获取所述
Hive
表数据与所述任务元信息之间的上下游关系;对所述数据日志进行解析,得到所述
Hive
表数据中的
Hive
表的使用和产出信息;根据所述
Hive
表数据与所述任务元信息之间的上下游关系,以及所述
Hive
表数据中的
Hive
表的使用和产出信息,确定所述数据流转链图;根据所述数据流转链图和所述
Hive
表的使用和产出信息,确定所述数据状态表
。4.
根据权利要求3所述的方法,其特征在于,所述获取所述
Hive
表数据与所述任务元信息之间的上下游关系,包括:根据所述任务元信息中的任务配置信息和任务代码信息,确定所述
Hive
表数据与所述任务元信息之间的依赖产出关系,以所述依赖产出关系作为所述
Hive
表数据与所述任务元信息之间的上下游关系
。5.
根据权利要求3所述的方法,其特征在于,所述根据所述数据流转链图和所述
Hive
表的使用和产出信息,确定所述数据状态表,包括:根据所述数据流转链图和所述
Hive
表的使用和产出信息确定各数据表对应的产出任务
、...
【专利技术属性】
技术研发人员:刘建锋,郗后姣,袁益梦,
申请(专利权)人:杭州有赞科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。