一种用于探测HIVE数据库数据血缘的方法及系统技术方案

技术编号:28785289 阅读:27 留言:0更新日期:2021-06-09 11:20
本发明专利技术公开了一种用于探测HIVE数据库数据血缘的方法及系统,方法包括:配置LineageLogger Hook功能;基于LineageLogger Hook功能对HiveSql进行解析,生成hive.log日志;对hive.log日志进行数据清洗形成JOIN格式,并将清洗后的数据数据导入至开源图数据库neo4j;利用neo4j接口查询字段之间的依赖关系;调用图数据库neo4j API接口,解析JSON串,将数据血缘进行可视化显示。本发明专利技术能够有效的完成各个数据表、字段之间的数据血缘关系的分析和梳理。析和梳理。析和梳理。

【技术实现步骤摘要】
一种用于探测HIVE数据库数据血缘的方法及系统


[0001]本专利技术涉及大数据的数据治理
,尤其涉及一种用于探测HIVE数据库数据血缘的方法及系统。

技术介绍

[0002]自2013年大数据时代元年以来,大数据给各行各业的发展带来新的机遇和挑战,各行各业对海量数据中所蕴涵价值的重视程度日益增加。数据仓库是从海量数据中将所有常用的、重要的业务相关指标数据进行汇集,降低了数据检索的时间成本,提高了数据质量和一致性,提高了对历史数据的应用,从而更好的挖掘出数据隐藏的价值。
[0003]数据血缘关系形象地描绘数据自底向上层层汇集,准确清晰地揭示了各级数据实体之间的血缘关系,有力的支持了业务系统的开发、测试和运维。它记载对数据处理的整个历史,包括数据的起源和处理这些数据的所有后继过程,对于分析数据、跟踪数据的动态演化、衡量数据的可信度、保证数据的质量等尤为重要。随着系统的运行,实际应用过程中相关业务系统的不断调整,越来越多的数据节点出现问题,维护成本又很高,只有少数常用报表工作正常。若出现这种情况,可以根据数据血缘关系进行追溯,探测具体是哪个节点出现问题。
[0004]当某部分数据异常告警时,可通过数据血缘关系图向下追踪分析数据异常的原因,可通过影响图向上分析哪些数据实体中的数据会受到影响。当表结构变更时,可通过影响图分析哪些程序需要作出修改。同时数据血缘关系有助于数据仓库同事更好的梳理业务,更便捷的建立ETL任务调度的依赖关系以及快速判断任务跑批失败是否对下游系统造成影响等功能。
[0005]随着数据仓库接入的表和建立的模型增多,元数据管理就变得越来越重要,元数据表血缘关系维护表与表之间的关系。良好的元数据管理,可以清晰和明确看出每张表和模型之前的关系。元数据的血缘关系挖掘,对数据流向追踪、业务问题排查、减少维护成本、提升开发效率等起着十分重要的作用。
[0006]因此,如何有效的确定出数据血缘,是一项亟待解决的问题。

技术实现思路

[0007]有鉴于此,本专利技术提供了一种用于探测HIVE数据库数据血缘的方法,能够有效的完成各个数据表、字段之间的数据血缘关系的分析和梳理。
[0008]本专利技术提供了一种用于探测HIVE数据库数据血缘的方法,包括:
[0009]配置LineageLogger Hook功能;
[0010]基于所述LineageLogger Hook功能对HiveSql进行解析,生成hive.log日志;
[0011]对所述hive.log日志进行数据清洗形成JOIN格式,并将清洗后的数据数据导入至开源图数据库neo4j;
[0012]利用neo4j接口查询字段之间的依赖关系;
[0013]调用图数据库neo4j API接口,解析JSON串,将数据血缘进行可视化显示。
[0014]优选地,所述配置LineageLogger Hook功能,包括:
[0015]通过在hive2.0版本以上添加参数方式配置hive

site.xml文件,同时配置Hook输出。
[0016]优选地,所述调用图数据库neo4j API接口,解析JSON串,将数据血缘进行可视化显示,包括:
[0017]通过可视化展示工具Tableau,调用图数据库neo4j API接口,解析JSON串,将数据血缘进行可视化显示。
[0018]一种用于探测HIVE数据库数据血缘的系统,包括:
[0019]配置模块,用于配置LineageLogger Hook功能;
[0020]第一解析模块,用于基于所述LineageLogger Hook功能对HiveSql进行解析,生成hive.log日志;
[0021]清洗模块,用于对所述hive.log日志进行数据清洗形成JOIN格式,并将清洗后的数据数据导入至开源图数据库neo4j;
[0022]查询模块,用于利用neo4j接口查询字段之间的依赖关系;
[0023]第二解析模块,用于调用图数据库neo4j API接口,解析JSON串,将数据血缘进行可视化显示。
[0024]优选地,所述配置模块具体用于:
[0025]通过在hive2.0版本以上添加参数方式配置hive

site.xml文件,同时配置Hook输出。
[0026]优选地,所述第二解析模块具体用于:
[0027]通过可视化展示工具Tableau,调用图数据库neo4j API接口,解析JSON串,将数据血缘进行可视化显示。
[0028]综上所述,本专利技术公开了一种用于探测HIVE数据库数据血缘的方法,当需要探测HIVE数据库数据血缘时,首先配置LineageLogger Hook功能;然后基于LineageLogger Hook功能对HiveSql进行解析,生成hive.log日志;对所述hive.log日志进行数据清洗形成JOIN格式,并将清洗后的数据数据导入至开源图数据库neo4j;利用neo4j接口查询字段之间的依赖关系;调用图数据库neo4j API接口,解析JSON串,将数据血缘进行可视化显示。本专利技术能够有效的完成各个数据表、字段之间的数据血缘关系的分析和梳理。
附图说明
[0029]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030]图1为本专利技术公开的一种用于探测HIVE数据库数据血缘的方法实施例1的方法流程图;
[0031]图2为本专利技术公开的一种用于探测HIVE数据库数据血缘的方法实施例2的方法流程图;
[0032]图3为本专利技术公开的一种用于探测HIVE数据库数据血缘的方法实施例3的方法流程图;
[0033]图4为本专利技术公开的一种用于探测HIVE数据库数据血缘的系统实施例1的结构示意图;
[0034]图5为本专利技术公开的一种用于探测HIVE数据库数据血缘的系统实施例2的结构示意图;
[0035]图6为本专利技术公开的一种用于探测HIVE数据库数据血缘的系统实施例3的结构示意图。
具体实施方式
[0036]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0037]如图1所示,为本专利技术公开的一种用于探测HIVE数据库数据血缘的方法实施例1的方法流程图,所述方法可以包括以下步骤:
[0038]S101、配置LineageLogger Hook功能;
[0039]当需要探测HIVE数据库数据血缘时,首先在hiv本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于探测HIVE数据库数据血缘的方法,其特征在于,包括:配置LineageLogger Hook功能;基于所述LineageLogger Hook功能对HiveSql进行解析,生成hive.log日志;对所述hive.log日志进行数据清洗形成JOIN格式,并将清洗后的数据数据导入至开源图数据库neo4j;利用neo4j接口查询字段之间的依赖关系;调用图数据库neo4j API接口,解析JSON串,将数据血缘进行可视化显示。2.根据权利要求1所述的方法,其特征在于,所述配置LineageLogger Hook功能,包括:通过在hive2.0版本以上添加参数方式配置hive

site.xml文件,同时配置Hook输出。3.根据权利要求2所述的方法,其特征在于,所述调用图数据库neo4j API接口,解析JSON串,将数据血缘进行可视化显示,包括:通过可视化展示工具Tableau,调用图数据库neo4j API接口,解析JSON串,将数据血缘进行可视化显示...

【专利技术属性】
技术研发人员:苏瑀陈筱进刘登贺张世杰
申请(专利权)人:吉林亿联银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1