【技术实现步骤摘要】
数据表的字段级数据血缘关系生成方法和装置
[0001]本专利技术涉及计算机
,尤其涉及一种数据表的字段级数据血缘关系生成方法和装置。
技术介绍
[0002]数据血缘关系是指数据的产生、处理、加工、融合、流转到消亡的全生命周期中,数据之间自然形成的一种类似于人类社会血缘关系的关系。例如,数据表字段A经过加工处理生成了数据表字段B,那么就可描述为数据表字段A与数据表字段B之间存在数据血缘关系。按血缘对象来分,数据血缘关系可分为系统级数据血缘关系、表级数据血缘关系、字段级数据血缘关系。例如,前述例子中数据表字段A经过加工处理生成数据表字段B,数据表字段A与数据表字段B之间存在的数据血缘关系就是字段级数据血缘关系。
[0003]相关技术中,跨层级的数据表字段血缘链路关系难以直接获取,通过人工逐层手动查询记录数据表字段血缘关系,会造成大量时间人力耗费,也可能因为手动查询记录繁琐出现错误。
技术实现思路
[0004]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此,本专利技术的第一个目的在于提出一种数据表的字段级数据血缘关系生成方法,以实现基于生成的表字段关联图谱获取数据表中任一表字段所有层级的血缘链路关系,解决相关技术中跨层级血缘链路关系难以直接获取的技术问题,避免人工耗费时间精力逐层手动查询数据表字段级数据血缘关系,实现数据来源的精确追踪、流转过程的准确还原、数据去向的精准定位。
[0006]本专利技术的第二个目的在于提出一种数据表的字段级数据血缘关 ...
【技术保护点】
【技术特征摘要】
1.一种数据表的字段级数据血缘关系生成方法,其特征在于,包括:获取目标数据表的表字段直接血缘关系,其中,所述目标数据表中存在具有直接血缘关系的任两字段,所述直接血缘关系是表征所述两字段中的一字段经过加工处理生成另一字段的数据血缘关系;根据所述表字段直接血缘关系,生成所述目标数据表的表字段关联图谱,其中,所述表字段关联图谱中包括用于表征所述表字段直接血缘关系中的各字段的表字段实体和用于表征任两所述表字段实体之间存在所述直接血缘关系的表字段关系边;针对所述目标数据表中的各表字段,基于所述表字段关联图谱中的所述表字段实体和所述表字段关系边,查询各所述表字段对应的表字段实体与所述表字段关系图谱中其他表字段实体之间存在直接或间接的数据血缘关系的路径,以将查询到的路径作为对应表字段的血缘链路关系。2.根据权利要求1所述的方法,其特征在于,所述针对所述目标数据表中的各表字段,基于所述表字段关联图谱中的所述表字段实体和所述表字段关系边,查询各所述表字段对应的表字段实体与所述表字段关系图谱中其他表字段实体之间存在直接或间接的数据血缘关系的路径,以将查询到的路径作为对应表字段的血缘链路关系,包括:针对所述目标数据表中的任一目标表字段,将所述表字段关联图谱中所述目标表字段对应的目标表字段实体作为血缘链路关系的第一层节点;遍历所述表字段关联图谱,以确定所述目标表字段实体对应的至少一个相邻表字段实体,其中,所述相邻表字段实体为所述表字段关联图谱中与所述目标表字段实体存在所述表字段关系边的表字段实体;依次将所述目标表字段实体对应的相邻表字段实体作为当前层节点,基于所述当前层节点执行多轮迭代,直至所述当前层节点不存在下一层节点停止迭代;每当执行一轮迭代,遍历所述表字段关联图谱,以确定本轮的所述当前层节点的下一层节点,并依次将本轮的所述当前层节点的下一层节点中的表字段实体更新为下一轮的所述当前层节点,其中,所述当前层节点的下一层节点中的表字段实体与所述当前层节点中的表字段实体存在所述表字段关系边,且不是所述当前层节点的上一层节点的表字段实体;基于各层节点中的表字段实体,生成所述目标表字段的血缘链路关系。3.根据权利要求2所述的方法,其特征在于,所述遍历所述表字段关联图谱,以确定所述目标表字段实体对应的至少一个相邻表字段实体,包括:以所述目标表字段实体为第一起点实体,遍历所述表字段关联图谱,以将所述表字段关联图谱中与所述第一起点实体存在表字段关系的至少一个表字段实体确定为所述目标表字段实体对应的至少一个相邻表字段实体。4.根据权利要求2所述的方法,其特征在于,所述每当执行一轮迭代,遍历所述表字段关联图谱,以确定本轮的所述当前层节点的下一层节点,包括:每当执行一轮迭代,以本轮的所述当前层节点中的表字段实体为第二起点实体,遍历所述表字段关联图谱,以得到所述表字段关联图谱中与所述第二起点实体存在所述表字段关系边的表字段实体的集合;将所述集合中除所述当前层节点的上一层节点的表字段实体以外的表字段实体,确定
为本轮的所述当前层节点的下一层节点。5.根据权利要求1所述的方法,其特征在于,所述根据所述表字段直接血缘关系,生成所述目标数据表的表字段关联图谱,包括:根据所述表字段直接血缘关系,生成字段直接血缘关系数据表,其中,所述字段直接血缘关系数据表中存储有至少一条用于表征任两字段之间存在所述直接血缘关系的记录;根据所述字段直接血缘关系数据表中的各条记录,生成所述目标数据表的表字段关联图谱。6.根据权利要求5所述的方法,其特征在于,所述字段直接血缘关系数据表至少包括源字段统一编号字段和直接血缘字段统一编号字段;所述根据所述表字段直接血缘关系,生成字段直接血缘关系数据表,包括:确定各所述表字段直接血缘关系中的源字段和直接血缘字段;其中,源字段和直接血缘字段存在对应的统一编号标识;将各所述源字段的统一编号标识存储至所述字段直接血缘关系数据表中的源字段统一编号字段中,将各所述直接血缘字段的统一编号标识存储至所述字段直接血缘关系数据表中的直接血缘字段统一编号字段中,生成所述字段直接血缘关系数据表。7.根据权利要求5所述的方法,其特征在于,所述根据所述字段直接血缘关系数据表中的各条记录,生成所述目标数据表的表字段关联图谱,包括:针对所述字段直接血缘关系数据表中的各条记录,根据所述各条记录中存在所述直接血缘关系的任两字段,生成对应的表字段实体;根据所述各条记录中任两字段之间存在的所述直接血缘关系,将各所述表字段实体通过表字段关系边进行连接,以生成所述目标数据表的表字段关联图谱。8.根据权利要求5
‑
7任一项所述的方法,其特征在于,所述字段直接血缘关系数据表包括但不限于源字段统一编号字段、直接血缘字段统一编号字段、源字段所属表名字段和直接血缘字段所属表名字段的一个或多个。9.根据权利要求1所述的方法,其特征在于,所述目标数据表至少包括全量数据表和增量数据表;所述获取目标数据表的表字段直接血缘关系,包括:从目标脚本中获取全量数据表的表字段直接血缘关系;每间隔预设时长,从所述目标脚本中获取增量数据表的表字段直接血缘关系。10.一种数据表的字段级数据血缘关系生成装置,其特征在于,包括:获取模块,用于获取目标...
【专利技术属性】
技术研发人员:蒋渊洋,邓杨,蓝宗玉,崔莹琰,刘冰冰,
申请(专利权)人:建信金融科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。