数据血缘的确定方法技术

技术编号:39497033 阅读:14 留言:0更新日期:2023-11-24 11:25
本发明专利技术公开了一种数据血缘的确定方法

【技术实现步骤摘要】
数据血缘的确定方法、装置、设备、存储介质及程序产品


[0001]本专利技术实施例涉及数据处理
,尤其涉及一种数据血缘的确定方法

装置

设备

存储介质及程序产品


技术介绍

[0002]目前,在对金融数据进行问题排查时,由于缺少数据加工关系的视图,往往只能进行局部问题的排查,无法及时从源头进行修正

因此,确定数据血缘关系显得尤为重要

现有技术中,或采用人工手段维护数据血缘关系,或采用元数管理工具记录数据血缘关系,或采用代码扫描的方式维护数据血缘关系,存在效率低及不准确的问题


技术实现思路

[0003]本专利技术实施例提供一种数据血缘的确定方法

装置

设备

存储介质及程序产品,可以提高数据血缘关系确定的效率及准确性

[0004]第一方面,本专利技术实施例提供了一种数据血缘的确定方法,包括:
[0005]获取数据处理日志

作业运行记录及设定映射关系;其中,所述设定映射关系为互联网协议地址与主机名称间的映射关系;
[0006]对所述数据处理日志进行解析,获得多个初始数据库操作语句;
[0007]基于所述作业运行记录及所述设定映射关系对所述多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句;
[0008]基于所述至少一个目标数据库操作语句确定数据血缘关系;其中,所述数据血缘关系包括表血缘关系及字段血缘关系

[0009]第二方面,本专利技术实施例还提供了一种数据血缘的确定装置,包括:
[0010]获取模块,用于获取数据处理日志

作业运行记录及设定映射关系;其中,所述设定映射关系为互联网协议地址与主机名称间的映射关系;
[0011]初始数据库操作语句获取模块,用于对所述数据处理日志进行解析,获得多个初始数据库操作语句;
[0012]目标数据库操作语句获取模块,用于基于所述作业运行记录及所述设定映射关系对所述多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句;
[0013]血缘关系确定模块,用于基于所述至少一个目标数据库操作语句确定数据血缘关系;其中,所述数据血缘关系包括表血缘关系及字段血缘关系

[0014]第三方面,本专利技术实施例还提供了一种电子设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本专利技术实施例所述的数据血缘的确定方法

[0015]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例所述的数据血缘的确定方法

[0016]第五方面,本专利技术实施例还提供了一种计算机程序产品,包括计算机程序,所述计
算机程序在被处理器执行时实现如本专利技术实施例所述的数据血缘的确定方法

[0017]本专利技术实施例公开了一种数据血缘的确定方法

装置

设备

存储介质及程序产品,获取数据处理日志

作业运行记录及设定映射关系;其中,设定映射关系为互联网协议地址与主机名称间的映射关系;对数据处理日志进行解析,获得多个初始数据库操作语句;基于作业运行记录及设定映射关系对多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句;基于至少一个目标数据库操作语句确定数据血缘关系;其中,数据血缘关系包括表血缘关系及字段血缘关系

本专利技术实施例提供的数据血缘的确定方法,根据作业运行记录及所述设定映射关系对数据库操作语句进行筛选,以基于筛选后的数据库操作语句确定数据血缘关系,可以提高数据血缘关系确定的效率及准确性

附图说明
[0018]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图

[0019]图1为本专利技术实施例一提供的一种数据血缘的确定方法的流程图;
[0020]图2为为本专利技术实施例一提供的一种数据血缘的确定装置的结构示意图;
[0021]图3为本专利技术实施例一提供的一种电子设备的结构示意图

具体实施方式
[0022]下面结合附图和实施例对本专利技术作进一步的详细说明

可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定

另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构

[0023]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释

同时,在本专利技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性

本申请技术方案中对数据的获取

存储

使用

处理等均符合国家法律法规的相关规定

[0024]图1为本专利技术实施例提供的一种数据血缘的确定方法的流程图,该方法适用于确定数据血缘关系的情况,该方法可以由数据血缘的确定装置来执行,该装置可以通过软件和
/
或硬件的形式实现,可选的,通过电子设备来实现,该电子设备可以是移动终端
、PC
端或服务器等

如图1所示,该方法具体包括如下步骤:
[0025]S110
,获取数据处理日志

作业运行记录及设定映射关系

[0026]其中,设定映射关系为互联网协议地址
(Internet Protocol Address

IP)
与主机名称间的映射关系

数据处理日志可以是抽取

转换

加载
(extract

transform

load

ETL)
脚本运行在数据库上而生成的日志

作业运行记录可以是某个业务场景下的数据处理业务对应的运行记录

[0027]本实施例中,数据处理日志包括多个数据处理记录,每个数据处理记录包括的信息有:互联网协议地址及作业起始时间

述作业运行记录包括的信息有:作业运行时段及主机名称

作业运行时段可以由作业起始时间及本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据血缘的确定方法,其特征在于,包括:获取数据处理日志

作业运行记录及设定映射关系;其中,所述设定映射关系为互联网协议地址与主机名称间的映射关系;对所述数据处理日志进行解析,获得多个初始数据库操作语句;基于所述作业运行记录及所述设定映射关系对所述多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句;基于所述至少一个目标数据库操作语句确定数据血缘关系;其中,所述数据血缘关系包括表血缘关系及字段血缘关系
。2.
根据权利要求1所述的方法,其特征在于,所述数据处理日志包括:互联网协议地址及作业起始时间;所述作业运行记录包括:作业运行时段及主机名称
。3.
根据权利要求2所述的方法,其特征在于,基于所述作业运行记录及所述设定映射关系对所述多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句,包括:根据所述设定映射关系确定所述数据处理日志中的互联网协议地址对应的主机名称;根据作业运行记录确定所述主机名称对应的作业运行时段;将数据处理日志中的作业起始时间落入所述作业运行时段的初始数据库操作语句进行筛选出来,获得至少一个目标数据库操作语句
。4.
根据权利要求1所述的方法,其特征在于,基于所述至少一个目标数据库操作语句确定数据血缘关系,包括:对所述至少一个目标数据库操作语句进行解析,获得每个目标数据库操作语句的源表与目标表关系,和
/
或,源字段与目标字段关系;基于各目标数据库操作语句的源表与目标表关系构建表血缘关系,基于各目标数据库操作数据的源字段与目标字段关系构建字段血缘关系
。5.
根据权利要求4所述的方法,其特征在于,基于各目标数据库操作语句的源表与目标表关系构建表血缘关系,基于各目标数据库操作数据的源字段与目标字段关系构建字段血缘关系,包括:确定末端表;基于所述末端表对所述源表与目标表关系及所述源字段与目标字段关系进行过滤;基于过滤后的源表与目标表关系构建表血缘关系,基于过滤后的源字段与目标字段关系构建字段血缘关系
。6.
根据权利要求5所述的方法,其特征在于,基于所述末端表对所述源表与目标表关系及所述源字段与目标字段关系进行过滤,包括:从所述末端表开始基于所述源表与目标表关系向前追溯至起始表,获得多条表链路;从所述末端表对应的字段开始基于所述源字段与目标字段关系向前追溯至起始字段,获得多条字段链路;将未处于任意一条表链路的源表与目标表关系确定为无关联源表与目标表关系;将未处于任意一条字段链路的源字段与目标字段关系确定为无关联源字段与目标字段关系;将所述无关联源表与目标表关系及所述无关联源...

【专利技术属性】
技术研发人员:叶鹏张曦张小彪孙兵兵杜冠霖刘兆国
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1