数据血缘关系追溯方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36600398 阅读:19 留言:0更新日期:2023-02-04 18:13
本申请提供一种数据血缘关系追溯方法、装置、电子设备和存储介质,涉及数据处理技术领域,该方法包括:从数据库中读取数据表的表结构信息,所述表结构信息包括字段,以及与每一字段对应的字段值;对所述字段值进行模式提取,得到每一字段的事件模式;根据每一字段的所述事件模式的相似度,确定不同字段之间的血缘关系;根据所述每一字段的血缘关系,确定不同数据表之间的血缘关系。此方法对样本要求不高,无需依赖其他数据即可实现血缘追溯,可以降低确定数据表的血缘关系的难度,提升判断血缘关系的准确性。缘关系的准确性。缘关系的准确性。

【技术实现步骤摘要】
数据血缘关系追溯方法、装置、电子设备和存储介质


[0001]本申请涉及数据处理
,尤其涉及一种数据血缘关系追溯方法、装置、电子设 备和存储介质。

技术介绍

[0002]在现代的大型互联网公司和银行中,数据库往往是企业最重要的核心资产之一。大 数据包含了一条从采集、加工、使用到更新的完整链路,环节越多,对数据来源和影响 的分析就越复杂。掌控复杂数据之间的血缘关系不仅可以方便业务查询和开发管理,更 能够帮助企业达到理解自身的数据资产的目标。
[0003]目前,追溯数据血缘关系的解决方案主要包括正向解析和反向推断两类,其中,正 向解析的核心做法是通过分析数据生产代码获得数据血缘,但是该方法需要定义大量与 SQL词法和语法相同的规则,且在面对复杂的语法时,返回的语法树结构层数过多,枝 叶数据复杂,不易准确提取血缘关系数据,另外,面对不规范的SQL写法,解析准确性 较差并且无法进行元数据信息校验。反向推断主要采用机器学习算法对数据样本进行学 习,这对算法的选择存在主观上的依赖,对样本要求较高,容易产生维数灾难、欠拟合 等问题。
[0004]因此,需要提出一种更优的追溯数据血缘关系的解决方案。

技术实现思路

[0005]有鉴于此,本申请的目的在于提出一种数据血缘关系追溯方法、装置、电子设备和存储 介质,本申请能够针对性的解决现有的问题。
[0006]基于上述目的,第一方面,本申请提出了一种数据血缘关系追溯方法,所述方法包括: 从数据库中读取数据表的表结构信息,所述表结构信息包括字段,以及与每一字段对应的字 段值;对所述字段值进行模式提取,得到每一字段的事件模式;根据每一字段的所述事件模 式的相似度,确定不同字段之间的血缘关系;根据所述每一字段的血缘关系,确定不同数据 表之间的血缘关系。
[0007]进一步地,所述对所述字段值进行模式提取,得到每一字段的事件模式,进一步包括: 遍历每一所述字段值,得到所述字段值的固定常量;根据每一字段值中所述固定常量的出现 频次对所述字段值进行分组,得到多个集群;提取每一集群的事件模式,根据每一字段的字 段值所包含的事件模式得到每一字段的事件模式,其中,所述事件模式包括所述固定常量和 变量值。
[0008]进一步地,在遍历每一所述字段值,得到所述字段值的固定常量之前,所述方法还包括: 对所述字段值进行预处理,对预处理后的所述字段值进行分词处理,得到多个词组;所述遍 历每一所述字段值,得到所述字段值的固定常量,包括:根据所述词组出现的频次,得到所 述固定常量。
[0009]进一步地,所述字段包括第一字段和第二字段,所述根据每一字段的所述事件模式的相 似度,确定不同字段之间的血缘关系,进一步包括:根据所述第一字段中的事件模
式和所述 第二字段中的事件模式的重合度,得到所述第一字段和所述第二字段的相似度;在所述相似 度大于或等于第一阈值的情况下,确定所述第一字段与所述第二字段具有血缘关系,在所述 相似度小于第一阈值的情况下,确定所述第一字段与所述第二字段无血缘关系。
[0010]进一步地,,所述表结构信息包括数据表的创建时间,在确定所述第一字段与所述第二 字段具有血缘关系之后,所述方法还包括:根据所述第一字段和第二字段所在的数据表的创 建时间,确定创建时间较早的数据表对应的字段为源字段。
[0011]进一步地,所述数据表包括第一数据表和第二数据表,所述根据所述每一字段的血缘关 系,确定不同数据表之间的血缘关系,进一步包括:获取所述第一数据表与所述第二数据表 中具有血缘关系的字段数量;根据所述具有血缘关系的字段数量分别与所述第一数据表的字 段总数和所述第二数据表的字段总数的占比,确定所述第一数据表与所述第二数据表的血缘 关系。
[0012]进一步地,根据所述具有血缘关系的字段数量在所述第一数据表和所述第二数据表中的 占比,确定所述第一数据表与所述第二数据表的血缘关系,包括:在所述具有血缘关系的字 段数量与所述第一数据表的字段总数的占比以及所述具有血缘关系的字段数量与所述第二数 据表的字段总数的占据均大于或等于第二阈值的情况下,确定所述第一数据表与所述第二数 据表具有血缘关系;否则,确定所述第一数据表与所述第二数据表无血缘关系。
[0013]第二方面,还提供了一种数据血缘关系追溯装置,包括:信息获取模块,用于从数据库 中读取数据表的表结构信息,所述表结构信息包括字段,以及与每一字段对应的字段值;提 取模块,用于对所述字段值进行模式提取,得到每一字段的事件模式;第一处理模块,用于 根据每一字段的所述事件模式的相似度,确定不同字段之间的血缘关系;第二处理模块,用 于根据所述每一字段的血缘关系,确定不同数据表之间的血缘关系。
[0014]第三方面,还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在 所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现第一 方面所述的方法。
[0015]第四方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处 理器执行实现第一方面任一项所述的方法。
[0016]总的来说,本申请的优势及给用户带来的体验在于:
[0017]本实施例通过从数据库中读取数据表的表结构信息,对字段值进行模式提取,得到每一 字段的事件模式;根据每一字段的事件模式的相似度,确定不同字段之间的血缘关系;根据 每一字段的血缘关系,确定不同数据表之间的血缘关系。此方法对样本要求不高,无需依赖 其他数据即可实现血缘追溯,可以降低确定数据表的血缘关系的难度,提升判断血缘关系的 准确性。
附图说明
[0018]在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或 元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的 一些实施方式,而不应将其视为是对本申请范围的限制。
[0019]图1示出本申请的一种数据血缘关系追溯方法的流程图;
[0020]图2示出根据本申请实施例得到每一字段的事件模式的步骤流程图;
[0021]图3示出根据本申请实施例的数据血缘关系追溯装置的结构示意图;
[0022]图4示出本申请一实施例所提供的一种电子设备的结构示意图;
[0023]图5示出了本申请一实施例所提供的一种存储介质的示意图。
具体实施方式
[0024]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述 的具体实施例仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了 便于描述,附图中仅示出了与有关专利技术相关的部分。
[0025]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互 组合。下面将参考附图并结合实施例来详细说明本申请。
[0026]本实施例提供的一种数据血缘关系追溯方法可以应用于多种数据库之间的血缘关系 场景,可以帮助用户达到理解自身的数据资产的目标,可用于分析上游数据发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据血缘关系追溯方法,其特征在于,所述方法包括:从数据库中读取数据表的表结构信息,所述表结构信息包括字段,以及与每一字段对应的字段值;对所述字段值进行模式提取,得到每一字段的事件模式;根据每一字段的所述事件模式的相似度,确定不同字段之间的血缘关系;根据所述每一字段的血缘关系,确定不同数据表之间的血缘关系。2.根据权利要求1所述的方法,其特征在于,所述对所述字段值进行模式提取,得到每一字段的事件模式,进一步包括:遍历每一所述字段值,得到所述字段值的固定常量;根据每一字段值中所述固定常量的出现频次对所述字段值进行分组,得到多个集群;提取每一集群的事件模式,根据每一字段的字段值所包含的事件模式得到每一字段的事件模式,其中,所述事件模式包括所述固定常量和变量值。3.根据权利要求2所述的方法,其特征在于,在遍历每一所述字段值,得到所述字段值的固定常量之前,所述方法还包括:对所述字段值进行预处理,对预处理后的所述字段值进行分词处理,得到多个词组;所述遍历每一所述字段值,得到所述字段值的固定常量,包括:根据所述词组出现的频次,得到所述固定常量。4.根据权利要求1所述的方法,其特征在于,所述字段包括第一字段和第二字段,所述根据每一字段的所述事件模式的相似度,确定不同字段之间的血缘关系,进一步包括:根据所述第一字段中的事件模式和所述第二字段中的事件模式的重合度,得到所述第一字段和所述第二字段的相似度;在所述相似度大于或等于第一阈值的情况下,确定所述第一字段与所述第二字段具有血缘关系,在所述相似度小于第一阈值的情况下,确定所述第一字段与所述第二字段无血缘关系。5.根据权利要求4所述的方法,其特征在于,所述表结构信息包括数据表的创建时间,在确定所述第一字段与所述第二字段具有血缘关系之后,所述方法还包括:根据所述第一字段和第二字段所在的数据表的创建时间,确...

【专利技术属性】
技术研发人员:白彧邓潇潇池永为龚小龙郑聪陈曦麻志毅
申请(专利权)人:浙江省北大信息技术高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1