【技术实现步骤摘要】
本公开涉及云计算领域,特别地,涉及一种数据血统分析方法与装置。
技术介绍
数据血统关系是指数据之间的上下文关系,数据的血统分析是对数据库系统追溯查询结果的来源,以衡量数据的可信度、数据的质量。通过数据血统追踪,在分布数据共享时可以解决数据的可信度、质量、版本信息等,对于各种导出数据集也能解决这些问题。通过数据血统追踪,可以获得数据在数据流的演化过程。当前数据血统自动分析技术主要是针对主流关系型数据的标准SQL(Structured Query Language,结构化查询语言)语言的解析,通过词法分析、语法分析等技术分析SQL脚本中的数据的来由。随着现在各类数据库技术的发展,分布式数据库与非关系型数据库等在SQL语法上不再囿于过往的标准SQL规范,会有很多自身扩充的关键字或语法格式,因此,现有的基于标准SQL语法完整定义的技术难以灵活扩充解析这些分布式数据库与非关系型数据库中的数据由来。
技术实现思路
本公开鉴于以上问题中的至少一个提出了新的技术方案。本公开在其一个方面提供了一种数据血统分析方法,其可以灵活分析各种通用结构化语句的数据血统。本公开在其另一方面提供了一种数据血统分析装置,其可以灵活分析各种通用结构化语句的数据血统。根据本公开,提供一种数据血统分析方法,包括:基于模式配置对查询语句进行分析,以识别其中的目标表、目标字段、源表与源字段;获取各类数据库系 ...
【技术保护点】
一种数据血统分析方法,其特征在于,包括:基于模式配置对查询语句进行分析,以识别其中的目标表、目标字段、源表与源字段;获取各类数据库系统定义的或用户自定义的元数据,并利用所述元数据对所述查询语句的模糊字段进行精确匹配;根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系;通过多层语句解析分析出多条查询语句之间的数据血统关系。
【技术特征摘要】
1.一种数据血统分析方法,其特征在于,包括:
基于模式配置对查询语句进行分析,以识别其中的目标表、目标字
段、源表与源字段;
获取各类数据库系统定义的或用户自定义的元数据,并利用所述元
数据对所述查询语句的模糊字段进行精确匹配;
根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数
据血统关系;
通过多层语句解析分析出多条查询语句之间的数据血统关系。
2.根据权利要求1所述的数据血统分析方法,其特征在于,所述模
式配置中包括关键字语句模式、关键字集、运算符集和函数模式。
3.根据权利要求2所述的数据血统分析方法,其特征在于,基于模
式配置对查询语句进行分析的步骤包括:
利用所述模式配置中的关键字语句模式识别与提取查询语句中的关
键字语句,并识别提取出的关键字语句中包含的目标表、目标字段、源
表与源字段;
利用所述模式配置中的函数模式识别所述查询语句中包含的函数结
构,并根据所述函数模式提取函数结构中的目标字段;
根据所述模式配置中的关键字集过滤所述查询语句中与数据血统关
系无关的关键字;
利用所述模式配置中的运算符集识别目标数据与常量集,并得出目
标字段与常量集之间的关系。
4.根据权利要求1所述的数据血统分析方法,其特征在于,利用所
述元数据对所述查询语句的模糊字段进行精确匹配的步骤包括:
从所述元数据中获取数据表包含的字段信息与字段顺序。
5.根据权利要求4所述的数据血统分析方法,其特征在于,根据识
别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系
的步骤包括:
按照所述字段顺序对所述查询语句的目标字段和源字段进行匹配;
对于所述查询语句中的嵌套语句,通过递归追溯原始字段以生成查
询语句的数据血统关系。
6.根据权利要求1所述的数据血统分析方法,其特征在于,所述通
过多层语句解析分析出多条查询语句之间的数据血统关系的步骤包括:
根据单一语句的源表、源字段与目标表、目标字段之间的关系在多
条查询语句间进行比对和分析;
根据源表、源字段与目标表、目标字段的关系设置各查询语句的层
级并形成各查询语句之间的数据血统关系。
7.一种数据血统分析装置,其特征在...
【专利技术属性】
技术研发人员:陈翀,陈康,向勇,张青,吴旭,刘春,高智衡,陶彩霞,关迎辉,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。