Hive制造技术

技术编号：39567792 阅读：12 留言：0更新日期：2023-12-03 19:18

本发明专利技术公开了一种

全部详细技术资料下载

【技术实现步骤摘要】
Hive数据自动下线方法、装置、设备及存储介质

[0001]本专利技术涉及数据处理
，尤其涉及
Hive
数据自动下线方法
、
装置
、
设备及存储介质
。

技术介绍

[0002]现如今，大数据技术已经普及，很多企业都利用该技术建立自己的
Hive
数据库
。
然而，数据的产出，往往伴随着计算资源的消耗和存储资源的占用，且随着时间的推移，数据库会累积大量无用的数据，浪费资源
。
[0003]Hive
数据库中，定时任务调度系统在执行调度任务时，会使用或产出数据，在业务开发配置时，也会配置任务需要依赖的数据
。
在
Hive
数据库长期迭代的情况下，会存在大量的无用数据
。
有些是为满足当时的业务需求而开发的，目前已经不被使用；有些是临时分析产出的中间数据；有些是可以被新的版本替换的数据
。
这些数据会消耗大量宝贵的计算和存储资源，造成浪费
。
因此，在相关技术中，处理
Hive
数据库中的无用数据时，会通过构建数据和任务的依赖关系图，从而确定数据和任务间的依赖关系，将没被依赖的数据发送给数据的相关负责人，在其确认后，做下线操作
。
[0004]然而，现有技术中有几个显著的问题：
1、
任务与数据的依赖和产出，需要人工配置，因此会存在漏配
、
错配
、<...

【技术保护点】

【技术特征摘要】
1.
一种
Hive
数据自动下线方法，其特征在于，所述方法包括：获取
Hive
表数据及任务元信息，并获取与所述
Hive
表数据及所述任务元信息对应的数据日志；基于所述数据日志
、
所述
Hive
表数据和所述任务元信息之间的关联关系确定数据流转链图，并基于所述数据流转链图确定数据状态表；获取预设的数据下线策略，基于所述数据下线策略和所述数据状态表确定候选下线数据；根据预设的数据下线操作策略，对所述候选下线数据进行对应数据下线操作
。2.
根据权利要求1所述的方法，其特征在于，所述获取
Hive
表数据及任务元信息，并获取与所述
Hive
表数据及所述任务元信息对应的数据日志，包括：从待分析
Hive
数据库中获取所述
Hive
表数据；从任务调度系统获取所述任务元信息；其中，所述任务元信息至少包括导入类任务元信息
、
加工类任务元信息和导出类任务元信息；从
HDFS
系统获取所述数据日志；其中，所述数据日志至少包括读写日志和用户行为日志
。3.
根据权利要求1所述的方法，其特征在于，所述基于所述数据日志
、
所述
Hive
表数据和所述任务元信息之间的关联关系确定数据流转链图，并基于所述数据流转链图确定数据状态表，包括：获取所述
Hive
表数据与所述任务元信息之间的上下游关系；对所述数据日志进行解析，得到所述
Hive
表数据中的
Hive
表的使用和产出信息；根据所述
Hive
表数据与所述任务元信息之间的上下游关系，以及所述
Hive
表数据中的
Hive
表的使用和产出信息，确定所述数据流转链图；根据所述数据流转链图和所述
Hive
表的使用和产出信息，确定所述数据状态表
。4.
根据权利要求3所述的方法，其特征在于，所述获取所述
Hive
表数据与所述任务元信息之间的上下游关系，包括：根据所述任务元信息中的任务配置信息和任务代码信息，确定所述
Hive
表数据与所述任务元信息之间的依赖产出关系，以所述依赖产出关系作为所述
Hive
表数据与所述任务元信息之间的上下游关系
。5.
根据权利要求3所述的方法，其特征在于，所述根据所述数据流转链图和所述
Hive
表的使用和产出信息，确定所述数据状态表，包括：根据所述数据流转链图和所述
Hive
表的使用和产出信息确定各数据表对应的产出任务
、...

【专利技术属性】
技术研发人员：刘建锋，郗后姣，袁益梦，
申请(专利权)人：杭州有赞科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人