Hive制造技术

技术编号:39567792 阅读:12 留言:0更新日期:2023-12-03 19:18
本发明专利技术公开了一种

【技术实现步骤摘要】
Hive数据自动下线方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及
Hive
数据自动下线方法

装置

设备及存储介质


技术介绍

[0002]现如今,大数据技术已经普及,很多企业都利用该技术建立自己的
Hive
数据库

然而,数据的产出,往往伴随着计算资源的消耗和存储资源的占用,且随着时间的推移,数据库会累积大量无用的数据,浪费资源

[0003]Hive
数据库中,定时任务调度系统在执行调度任务时,会使用或产出数据,在业务开发配置时,也会配置任务需要依赖的数据


Hive
数据库长期迭代的情况下,会存在大量的无用数据

有些是为满足当时的业务需求而开发的,目前已经不被使用;有些是临时分析产出的中间数据;有些是可以被新的版本替换的数据

这些数据会消耗大量宝贵的计算和存储资源,造成浪费

因此,在相关技术中,处理
Hive
数据库中的无用数据时,会通过构建数据和任务的依赖关系图,从而确定数据和任务间的依赖关系,将没被依赖的数据发送给数据的相关负责人,在其确认后,做下线操作

[0004]然而,现有技术中有几个显著的问题:
1、
任务与数据的依赖和产出,需要人工配置,因此会存在漏配

错配
、<br/>信息过时等问题,这样就难以准确判断数据是否还被其他任务依赖;
2、
数据的使用有多种场景,除了定时任务外,还有数据分析

服务查询等,因此,仅仅使用调度系统的配置,会有遗漏;
3、
需要人工判断数据是否无用,下线操作也需要手动操作,资源回收效率低下,并且容易出错;
4、
数据下线的进展不透明,容易误下线而影响业务稳定性

[0005]因此,针对现有技术中存在的
Hive
数据下线效率低

下线准确率低的问题,尚未提出有效的解决方案


技术实现思路

[0006]本专利技术实施例提供了一种
Hive
数据自动下线方法

装置

设备及存储介质,旨在解决现有技术方法中所存在的
Hive
数据下线效率低

下线准确率低的问题

[0007]第一方面,本专利技术实施例提供了一种
Hive
数据自动下线方法,所述方法包括:
[0008]获取
Hive
表数据及任务元信息,并获取与所述
Hive
表数据及所述任务元信息对应的数据日志;
[0009]基于所述数据日志

所述
Hive
表数据和所述任务元信息之间的关联关系确定数据流转链图,并基于所述数据流转链图确定数据状态表;
[0010]获取预设的数据下线策略,基于所述数据下线策略和所述数据状态表确定候选下线数据;
[0011]根据预设的数据下线操作策略,对所述候选下线数据进行对应数据下线操作

[0012]第二方面,本专利技术实施例提供了一种
Hive
数据自动下线装置,包括:
[0013]获取模块,用于获取
Hive
表数据及任务元信息,并获取与所述
Hive
表数据及所述任务元信息对应的数据日志;
[0014]关联模块,用于基于所述数据日志

所述
Hive
表数据和所述任务元信息之间的关联关系确定数据流转链图,并基于所述数据流转链图确定数据状态表;
[0015]提取模块,用于获取预设的数据下线策略,基于所述数据下线策略和所述数据状态表确定候选下线数据;
[0016]下线模块,用于根据预设的数据下线操作策略,对所述候选下线数据进行对应数据下线操作

[0017]本专利技术实施例提供了一种
Hive
数据自动下线方法及装置

获取
Hive
表数据及任务元信息,并获取与
Hive
表数据及任务元信息对应的数据日志;基于数据日志
、Hive
表数据和任务元信息之间的关联关系确定数据流转链图,并基于数据流转链图确定数据状态表;获取预设的数据下线策略,基于数据下线策略和数据状态表确定候选下线数据;根据预设的数据下线操作策略,对候选下线数据进行对应数据下线操作

[0018]本申请提供了一套识别并自动下线无用数据的系统,其通过解析运行日志和
HDFS
读写消息,获取任务和数据的使用和产出关系,构建完备的数据流转链路,从而根据数据流转链路中数据的上下游关系和设定的筛选规则更精准地挖掘出无用数据;最后自动下线无用数据,释放存储和计算资源,大幅度降低了人工误操作风险,提升了数据清理的效率,提高了
Hive
数据下线效率和准确率

附图说明
[0019]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0020]图1为本专利技术实施例提供的
Hive
数据自动下线方法的流程示意图;
[0021]图2为本专利技术实施例提供的数据

任务和各类日志间的关联示意图;
[0022]图3为本专利技术实施例提供的数据流转链路示意图;
[0023]图4为本专利技术实施例提供的数据状态表示意图;
[0024]图5为本专利技术实施例提供的确定候选下线数据的流程示意图;
[0025]图6为本专利技术实施例提供的数据下线操作的流程示意图;
[0026]图7为本专利技术实施例提供的数据下线操作的具体流程示意图;
[0027]图8为本专利技术实施例提供的
Hive
数据自动下线装置的示意性框图;
[0028]图9为本专利技术实施例提供的计算机设备的示意性框图

具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围

[0030]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示
所描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种
Hive
数据自动下线方法,其特征在于,所述方法包括:获取
Hive
表数据及任务元信息,并获取与所述
Hive
表数据及所述任务元信息对应的数据日志;基于所述数据日志

所述
Hive
表数据和所述任务元信息之间的关联关系确定数据流转链图,并基于所述数据流转链图确定数据状态表;获取预设的数据下线策略,基于所述数据下线策略和所述数据状态表确定候选下线数据;根据预设的数据下线操作策略,对所述候选下线数据进行对应数据下线操作
。2.
根据权利要求1所述的方法,其特征在于,所述获取
Hive
表数据及任务元信息,并获取与所述
Hive
表数据及所述任务元信息对应的数据日志,包括:从待分析
Hive
数据库中获取所述
Hive
表数据;从任务调度系统获取所述任务元信息;其中,所述任务元信息至少包括导入类任务元信息

加工类任务元信息和导出类任务元信息;从
HDFS
系统获取所述数据日志;其中,所述数据日志至少包括读写日志和用户行为日志
。3.
根据权利要求1所述的方法,其特征在于,所述基于所述数据日志

所述
Hive
表数据和所述任务元信息之间的关联关系确定数据流转链图,并基于所述数据流转链图确定数据状态表,包括:获取所述
Hive
表数据与所述任务元信息之间的上下游关系;对所述数据日志进行解析,得到所述
Hive
表数据中的
Hive
表的使用和产出信息;根据所述
Hive
表数据与所述任务元信息之间的上下游关系,以及所述
Hive
表数据中的
Hive
表的使用和产出信息,确定所述数据流转链图;根据所述数据流转链图和所述
Hive
表的使用和产出信息,确定所述数据状态表
。4.
根据权利要求3所述的方法,其特征在于,所述获取所述
Hive
表数据与所述任务元信息之间的上下游关系,包括:根据所述任务元信息中的任务配置信息和任务代码信息,确定所述
Hive
表数据与所述任务元信息之间的依赖产出关系,以所述依赖产出关系作为所述
Hive
表数据与所述任务元信息之间的上下游关系
。5.
根据权利要求3所述的方法,其特征在于,所述根据所述数据流转链图和所述
Hive
表的使用和产出信息,确定所述数据状态表,包括:根据所述数据流转链图和所述
Hive
表的使用和产出信息确定各数据表对应的产出任务
、...

【专利技术属性】
技术研发人员:刘建锋郗后姣袁益梦
申请(专利权)人:杭州有赞科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1