数据表的字段级数据血缘关系生成方法和装置制造方法及图纸

技术编号:39261786 阅读:10 留言:0更新日期:2023-10-30 12:14
本发明专利技术提出一种数据表的字段级数据血缘关系生成方法和装置,其中,方法包括:通过获取目标数据表的表字段直接血缘关系,其中,目标数据表中存在具有直接血缘关系的任两字段,直接血缘关系是表征两字段中的一字段经过加工处理生成另一字段的数据血缘关系,实现根据表字段直接血缘关系,生成目标数据表的表字段关联图谱,从而针对目标数据表中的各表字段,基于表字段关联图谱中的表字段实体和表字段关系边,查询各表字段对应的表字段实体与表字段关系图谱中其他表字段实体之间存在直接或间接的数据血缘关系的路径,以将查询到的路径作为对应表字段的血缘链路关系,由此实现基于生成的表字段关联图谱获取数据表中任一表字段所有层级的血缘链路关系。所有层级的血缘链路关系。所有层级的血缘链路关系。

【技术实现步骤摘要】
数据表的字段级数据血缘关系生成方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种数据表的字段级数据血缘关系生成方法和装置。

技术介绍

[0002]数据血缘关系是指数据的产生、处理、加工、融合、流转到消亡的全生命周期中,数据之间自然形成的一种类似于人类社会血缘关系的关系。例如,数据表字段A经过加工处理生成了数据表字段B,那么就可描述为数据表字段A与数据表字段B之间存在数据血缘关系。按血缘对象来分,数据血缘关系可分为系统级数据血缘关系、表级数据血缘关系、字段级数据血缘关系。例如,前述例子中数据表字段A经过加工处理生成数据表字段B,数据表字段A与数据表字段B之间存在的数据血缘关系就是字段级数据血缘关系。
[0003]相关技术中,跨层级的数据表字段血缘链路关系难以直接获取,通过人工逐层手动查询记录数据表字段血缘关系,会造成大量时间人力耗费,也可能因为手动查询记录繁琐出现错误。

技术实现思路

[0004]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此,本专利技术的第一个目的在于提出一种数据表的字段级数据血缘关系生成方法,以实现基于生成的表字段关联图谱获取数据表中任一表字段所有层级的血缘链路关系,解决相关技术中跨层级血缘链路关系难以直接获取的技术问题,避免人工耗费时间精力逐层手动查询数据表字段级数据血缘关系,实现数据来源的精确追踪、流转过程的准确还原、数据去向的精准定位。
[0006]本专利技术的第二个目的在于提出一种数据表的字段级数据血缘关系生成装置。
[0007]本专利技术的第三个目的在于提出一种电子设备。
[0008]本专利技术的第四个目的在于提出一种计算机可读存储介质。
[0009]本专利技术的第五个目的在于提出一种计算机程序产品。
[0010]为达上述目的,本专利技术第一方面实施例提出了一种数据表的字段级数据血缘关系生成方法,包括:
[0011]获取目标数据表的表字段直接血缘关系,其中,所述目标数据表中存在具有直接血缘关系的任两字段,所述直接血缘关系是表征所述两字段中的一字段经过加工处理生成另一字段的数据血缘关系;
[0012]根据所述表字段直接血缘关系,生成所述目标数据表的表字段关联图谱,其中,所述表字段关联图谱中包括用于表征所述表字段直接血缘关系中的各字段的表字段实体和用于表征任两所述表字段实体之间存在所述直接血缘关系的表字段关系边;
[0013]针对所述目标数据表中的各表字段,基于所述表字段关联图谱中的所述表字段实体和所述表字段关系边,查询各所述表字段对应的表字段实体与所述表字段关系图谱中其
他表字段实体之间存在直接或间接的数据血缘关系的路径,以将查询到的路径作为对应表字段的血缘链路关系。
[0014]为达上述目的,本专利技术第二方面实施例提出了一种数据表的字段级数据血缘关系生成装置,包括:
[0015]获取模块,用于获取目标数据表的表字段直接血缘关系,其中,所述目标数据表中存在具有直接血缘关系的任两字段,所述直接血缘关系是表征所述两字段中的一字段经过加工处理生成另一字段的数据血缘关系;
[0016]生成模块,用于根据所述表字段直接血缘关系,生成所述目标数据表的表字段关联图谱,其中,所述表字段关联图谱中包括用于表征所述表字段直接血缘关系中的各字段的表字段实体和用于表征任两所述表字段实体之间存在所述直接血缘关系的表字段关系边;
[0017]处理模块,用于针对所述目标数据表中的各表字段,基于所述表字段关联图谱中的所述表字段实体和所述表字段关系边,查询各所述表字段对应的表字段实体与所述表字段关系图谱中其他表字段实体之间存在直接或间接的数据血缘关系的路径,以将查询到的路径作为对应表字段的血缘链路关系。
[0018]为达上述目的,本专利技术第三方面实施例提出了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面的数据表的字段级数据血缘关系生成方法。
[0019]为了实现上述目的,本专利技术第四方面实施例提出了一种存储有计算机指令的计算机可读存储介质,所述计算机指令用于使所述计算机执行前述第一方面的数据表的字段级数据血缘关系生成方法。
[0020]为了实现上述目的,本专利技术第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述第一方面的数据表的字段级数据血缘关系生成方法。
[0021]本专利技术实施例所提供的技术方案包含如下的有益效果:
[0022]通过获取目标数据表的表字段直接血缘关系,其中,目标数据表中存在具有直接血缘关系的任两字段,直接血缘关系是表征两字段中的一字段经过加工处理生成另一字段的数据血缘关系,实现根据表字段直接血缘关系,生成目标数据表的表字段关联图谱,从而针对目标数据表中的各表字段,基于表字段关联图谱中的表字段实体和表字段关系边,查询各表字段对应的表字段实体与表字段关系图谱中其他表字段实体之间存在直接或间接的数据血缘关系的路径,以将查询到的路径作为对应表字段的血缘链路关系。由此,可实现基于生成的表字段关联图谱获取数据表中任一表字段所有层级的血缘链路关系,解决相关技术中跨层级血缘链路关系难以直接获取的技术问题,避免了人工耗费时间精力逐层手动查询数据表字段级数据血缘关系,实现数据来源的精确追踪、流转过程的准确还原、数据去向的精准定位。
[0023]本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0024]本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0025]图1为本专利技术实施例所提供的一种数据表的字段级数据血缘关系生成方法的流程示意图;
[0026]图2为本专利技术实施例所提供的一种表字段关联图谱的示意图;
[0027]图3为本专利技术实施例所提供的另一种数据表的字段级数据血缘关系生成方法的流程示意图;
[0028]图4为本专利技术实施例所提供的另一种数据表的字段级数据血缘关系生成方法的流程示意图;
[0029]图5为本专利技术实施例所提供的一种遍历表字段关联图谱的示意图;
[0030]图6为本专利技术实施例提供的一种数据表的字段级数据血缘关系生成装置的结构示意图;
[0031]图7为本专利技术实施例提供的一个电子设备的结构示意图。
具体实施方式
[0032]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0033]在实际的数据治理过程中,和某个表字段有直接血缘关系的数据表字段可以通过提取ETL过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据表的字段级数据血缘关系生成方法,其特征在于,包括:获取目标数据表的表字段直接血缘关系,其中,所述目标数据表中存在具有直接血缘关系的任两字段,所述直接血缘关系是表征所述两字段中的一字段经过加工处理生成另一字段的数据血缘关系;根据所述表字段直接血缘关系,生成所述目标数据表的表字段关联图谱,其中,所述表字段关联图谱中包括用于表征所述表字段直接血缘关系中的各字段的表字段实体和用于表征任两所述表字段实体之间存在所述直接血缘关系的表字段关系边;针对所述目标数据表中的各表字段,基于所述表字段关联图谱中的所述表字段实体和所述表字段关系边,查询各所述表字段对应的表字段实体与所述表字段关系图谱中其他表字段实体之间存在直接或间接的数据血缘关系的路径,以将查询到的路径作为对应表字段的血缘链路关系。2.根据权利要求1所述的方法,其特征在于,所述针对所述目标数据表中的各表字段,基于所述表字段关联图谱中的所述表字段实体和所述表字段关系边,查询各所述表字段对应的表字段实体与所述表字段关系图谱中其他表字段实体之间存在直接或间接的数据血缘关系的路径,以将查询到的路径作为对应表字段的血缘链路关系,包括:针对所述目标数据表中的任一目标表字段,将所述表字段关联图谱中所述目标表字段对应的目标表字段实体作为血缘链路关系的第一层节点;遍历所述表字段关联图谱,以确定所述目标表字段实体对应的至少一个相邻表字段实体,其中,所述相邻表字段实体为所述表字段关联图谱中与所述目标表字段实体存在所述表字段关系边的表字段实体;依次将所述目标表字段实体对应的相邻表字段实体作为当前层节点,基于所述当前层节点执行多轮迭代,直至所述当前层节点不存在下一层节点停止迭代;每当执行一轮迭代,遍历所述表字段关联图谱,以确定本轮的所述当前层节点的下一层节点,并依次将本轮的所述当前层节点的下一层节点中的表字段实体更新为下一轮的所述当前层节点,其中,所述当前层节点的下一层节点中的表字段实体与所述当前层节点中的表字段实体存在所述表字段关系边,且不是所述当前层节点的上一层节点的表字段实体;基于各层节点中的表字段实体,生成所述目标表字段的血缘链路关系。3.根据权利要求2所述的方法,其特征在于,所述遍历所述表字段关联图谱,以确定所述目标表字段实体对应的至少一个相邻表字段实体,包括:以所述目标表字段实体为第一起点实体,遍历所述表字段关联图谱,以将所述表字段关联图谱中与所述第一起点实体存在表字段关系的至少一个表字段实体确定为所述目标表字段实体对应的至少一个相邻表字段实体。4.根据权利要求2所述的方法,其特征在于,所述每当执行一轮迭代,遍历所述表字段关联图谱,以确定本轮的所述当前层节点的下一层节点,包括:每当执行一轮迭代,以本轮的所述当前层节点中的表字段实体为第二起点实体,遍历所述表字段关联图谱,以得到所述表字段关联图谱中与所述第二起点实体存在所述表字段关系边的表字段实体的集合;将所述集合中除所述当前层节点的上一层节点的表字段实体以外的表字段实体,确定
为本轮的所述当前层节点的下一层节点。5.根据权利要求1所述的方法,其特征在于,所述根据所述表字段直接血缘关系,生成所述目标数据表的表字段关联图谱,包括:根据所述表字段直接血缘关系,生成字段直接血缘关系数据表,其中,所述字段直接血缘关系数据表中存储有至少一条用于表征任两字段之间存在所述直接血缘关系的记录;根据所述字段直接血缘关系数据表中的各条记录,生成所述目标数据表的表字段关联图谱。6.根据权利要求5所述的方法,其特征在于,所述字段直接血缘关系数据表至少包括源字段统一编号字段和直接血缘字段统一编号字段;所述根据所述表字段直接血缘关系,生成字段直接血缘关系数据表,包括:确定各所述表字段直接血缘关系中的源字段和直接血缘字段;其中,源字段和直接血缘字段存在对应的统一编号标识;将各所述源字段的统一编号标识存储至所述字段直接血缘关系数据表中的源字段统一编号字段中,将各所述直接血缘字段的统一编号标识存储至所述字段直接血缘关系数据表中的直接血缘字段统一编号字段中,生成所述字段直接血缘关系数据表。7.根据权利要求5所述的方法,其特征在于,所述根据所述字段直接血缘关系数据表中的各条记录,生成所述目标数据表的表字段关联图谱,包括:针对所述字段直接血缘关系数据表中的各条记录,根据所述各条记录中存在所述直接血缘关系的任两字段,生成对应的表字段实体;根据所述各条记录中任两字段之间存在的所述直接血缘关系,将各所述表字段实体通过表字段关系边进行连接,以生成所述目标数据表的表字段关联图谱。8.根据权利要求5

7任一项所述的方法,其特征在于,所述字段直接血缘关系数据表包括但不限于源字段统一编号字段、直接血缘字段统一编号字段、源字段所属表名字段和直接血缘字段所属表名字段的一个或多个。9.根据权利要求1所述的方法,其特征在于,所述目标数据表至少包括全量数据表和增量数据表;所述获取目标数据表的表字段直接血缘关系,包括:从目标脚本中获取全量数据表的表字段直接血缘关系;每间隔预设时长,从所述目标脚本中获取增量数据表的表字段直接血缘关系。10.一种数据表的字段级数据血缘关系生成装置,其特征在于,包括:获取模块,用于获取目标...

【专利技术属性】
技术研发人员:蒋渊洋邓杨蓝宗玉崔莹琰刘冰冰
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1