【技术实现步骤摘要】
数据血缘的确定方法、装置、设备、存储介质及程序产品
[0001]本专利技术实施例涉及数据处理
,尤其涉及一种数据血缘的确定方法
、
装置
、
设备
、
存储介质及程序产品
。
技术介绍
[0002]目前,在对金融数据进行问题排查时,由于缺少数据加工关系的视图,往往只能进行局部问题的排查,无法及时从源头进行修正
。
因此,确定数据血缘关系显得尤为重要
。
现有技术中,或采用人工手段维护数据血缘关系,或采用元数管理工具记录数据血缘关系,或采用代码扫描的方式维护数据血缘关系,存在效率低及不准确的问题
。
技术实现思路
[0003]本专利技术实施例提供一种数据血缘的确定方法
、
装置
、
设备
、
存储介质及程序产品,可以提高数据血缘关系确定的效率及准确性
。
[0004]第一方面,本专利技术实施例提供了一种数据血缘的确定方法,包括:
[0005]获取数据处理日志
、
作业运行记录及设定映射关系;其中,所述设定映射关系为互联网协议地址与主机名称间的映射关系;
[0006]对所述数据处理日志进行解析,获得多个初始数据库操作语句;
[0007]基于所述作业运行记录及所述设定映射关系对所述多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句;
[0008]基于所述至少一个目标数据库操作语句确定数 ...
【技术保护点】
【技术特征摘要】
1.
一种数据血缘的确定方法,其特征在于,包括:获取数据处理日志
、
作业运行记录及设定映射关系;其中,所述设定映射关系为互联网协议地址与主机名称间的映射关系;对所述数据处理日志进行解析,获得多个初始数据库操作语句;基于所述作业运行记录及所述设定映射关系对所述多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句;基于所述至少一个目标数据库操作语句确定数据血缘关系;其中,所述数据血缘关系包括表血缘关系及字段血缘关系
。2.
根据权利要求1所述的方法,其特征在于,所述数据处理日志包括:互联网协议地址及作业起始时间;所述作业运行记录包括:作业运行时段及主机名称
。3.
根据权利要求2所述的方法,其特征在于,基于所述作业运行记录及所述设定映射关系对所述多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句,包括:根据所述设定映射关系确定所述数据处理日志中的互联网协议地址对应的主机名称;根据作业运行记录确定所述主机名称对应的作业运行时段;将数据处理日志中的作业起始时间落入所述作业运行时段的初始数据库操作语句进行筛选出来,获得至少一个目标数据库操作语句
。4.
根据权利要求1所述的方法,其特征在于,基于所述至少一个目标数据库操作语句确定数据血缘关系,包括:对所述至少一个目标数据库操作语句进行解析,获得每个目标数据库操作语句的源表与目标表关系,和
/
或,源字段与目标字段关系;基于各目标数据库操作语句的源表与目标表关系构建表血缘关系,基于各目标数据库操作数据的源字段与目标字段关系构建字段血缘关系
。5.
根据权利要求4所述的方法,其特征在于,基于各目标数据库操作语句的源表与目标表关系构建表血缘关系,基于各目标数据库操作数据的源字段与目标字段关系构建字段血缘关系,包括:确定末端表;基于所述末端表对所述源表与目标表关系及所述源字段与目标字段关系进行过滤;基于过滤后的源表与目标表关系构建表血缘关系,基于过滤后的源字段与目标字段关系构建字段血缘关系
。6.
根据权利要求5所述的方法,其特征在于,基于所述末端表对所述源表与目标表关系及所述源字段与目标字段关系进行过滤,包括:从所述末端表开始基于所述源表与目标表关系向前追溯至起始表,获得多条表链路;从所述末端表对应的字段开始基于所述源字段与目标字段关系向前追溯至起始字段,获得多条字段链路;将未处于任意一条表链路的源表与目标表关系确定为无关联源表与目标表关系;将未处于任意一条字段链路的源字段与目标字段关系确定为无关联源字段与目标字段关系;将所述无关联源表与目标表关系及所述无关联源...
【专利技术属性】
技术研发人员:叶鹏,张曦,张小彪,孙兵兵,杜冠霖,刘兆国,
申请(专利权)人:建信金融科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。