基于结构数据的数据血缘确定方法及装置制造方法及图纸

技术编号:20329195 阅读:48 留言:0更新日期:2019-02-13 05:47
本公开提供一种基于结构数据的数据血缘确定方法及装置,方法包括:解析选择语句得到源抽象语法树,并将遍历源抽象语法树得到的表信息和字段信息逐层组织到源清单中;解析插入语句得到目标抽象语法树,并将遍历目标抽象语法树得到的表信息和字段信息逐层组织到目标清单中;遍历源清单获取源表信息,并遍历目标清单获取目标表信息,得到表粒度的数据血缘关系;从目标清单中取出目标表的目标字段信息,从源清单的第一层开始逐层找到与目标表的目标字段信息同名的源表中的源字段,直到源字段所属的源表不再来源于子查询时,将对应的源字段确定为目标字段信息对应的具有血缘关系的源字段。该方案能够对基于结构数据的数据血缘实现字段级别粒度的解析。

【技术实现步骤摘要】
基于结构数据的数据血缘确定方法及装置
本公开涉及数据处理
,具体涉及一种基于结构数据的数据血缘确定方法、装置、电子设备及计算机可读存储介质。
技术介绍
数据血缘目前没有统一的定义,可以大致理解为数据产生的链路。数据血缘描述了一张表依赖了哪些表,以及表里的字段是如何生成的,更进一步甚至描述了这些字段又依赖于其它表的哪些字段。通过数据血缘可以知道数据生产的上下游依赖关系。数据血缘主要应用在大数据领域,作为背景知识,先来了解一下大数据的整个生产流程。大数据的整体生产流程一般分为数据源、生产、仓库、数据应用四层,数据源以业务库的mysql为主,其次是hdfs或ftp的文件、kafka或mq等,生产层面以ETL系统为主。数据的例行生产由底层事实表和维度表开始,基于事实和维度生产一些中间表,然后再生成聚合表。当业务体量很大的时候,整个系统会用到上千上万张表,表与表之间会形成非常复杂的依赖关系。数据血缘主要用来解决大数据领域的数据可解释性问题,数据可解释是所有大数据团队需要面临的一个难题,数据可解释性主要包含两个方面:数据口径和数据依赖关系。ETL开发者经常面临的一个问题就是要向数据使用方解本文档来自技高网...

【技术保护点】
1.一种基于结构数据的数据血缘确定方法,其特征在于,包括:解析结构数据中的选择语句得到源抽象语法树,并将遍历所述源抽象语法树得到的表信息和字段信息逐层组织到源清单中;所述源清单中的表称为源表;解析结构数据中的插入语句得到目标抽象语法树,并将遍历所述目标抽象语法树得到的表信息和字段信息逐层组织到目标清单中;所述目标清单中的表称为目标表;遍历所述源清单获取源表信息,并遍历所述目标清单获取目标表信息,得到表粒度的数据血缘关系;从所述目标清单中取出目标表的目标字段信息,从所述源清单的第一层开始逐层找到与所述目标表的目标字段信息同名的源表中的源字段,直到所述源字段所属的源表不再来源于子查询时将对应的源字...

【技术特征摘要】
1.一种基于结构数据的数据血缘确定方法,其特征在于,包括:解析结构数据中的选择语句得到源抽象语法树,并将遍历所述源抽象语法树得到的表信息和字段信息逐层组织到源清单中;所述源清单中的表称为源表;解析结构数据中的插入语句得到目标抽象语法树,并将遍历所述目标抽象语法树得到的表信息和字段信息逐层组织到目标清单中;所述目标清单中的表称为目标表;遍历所述源清单获取源表信息,并遍历所述目标清单获取目标表信息,得到表粒度的数据血缘关系;从所述目标清单中取出目标表的目标字段信息,从所述源清单的第一层开始逐层找到与所述目标表的目标字段信息同名的源表中的源字段,直到所述源字段所属的源表不再来源于子查询时将对应的源字段确定为目标字段信息对应的具有血缘关系的源字段;所述目标字段信息的数量为至少一个。2.根据权利要求1所述的方法,其特征在于,所述源清单及目标清单包括至少一个层,每个层至少包括一张表,每张表至少包括一个字段,所述结构数据在所述源清单或所述目标清单的层数为所嵌套子查询的层数与预设阈值的和值,关联查询与联合查询的表与主表均在同一层。3.根据权利要求2所述的方法,其特征在于,所述从所述源清单的第一层开始逐层找到与所述目标表的目标字段信息同名的源表中的源字段,直到所述源字段所属的源表不再来源于子查询时将对应的源字段确定为目标字段信息对应的具有血缘关系的源字段包括:将所述目标表的目标字段信息与所述源清单的第一层的源表中的字段进行匹配,找到同名的源字段;判断所述同名的源字段所属的源表是否来源于子查询;若所述同名的源字段所属的源表不来源于子查询,则将所述同名的源字段确定为所述目标字段信息对应的具有血缘关系的源字段;若所述同名的源字段所属的源表来源于子查询,则将所述同名的源字段与所述源清单中从第二层开始逐层的源表中的源字段进行匹配,找到同名的另一源字段,直到所述另一源字段所属的源表不再来源于子查询时将对应的源字段确定为目标字段信息对应的具有血缘关系的源字段。4.根据权利要求1-3中任一项所述的方法,其特征在于,所述源清单及目标清单中每一层的表的名称包含其所属表的名称信息。5.一种基于结构数据的数据血缘确定装置,其特征在于,包括:源清单生成模块,被配置为解析结构数据中的选择语句得到源抽象语...

【专利技术属性】
技术研发人员:梁福坤张传凯刘海宇
申请(专利权)人:拉扎斯网络科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1