数据血统分析方法与装置制造方法及图纸

技术编号:11155742 阅读:187 留言:0更新日期:2015-03-18 12:00
本公开涉及一种数据血统分析方法与装置。该方法包括基于模式配置对查询语句进行分析,以识别其中的目标表、目标字段、源表与源字段;获取各类数据库系统定义的或用户自定义的元数据并利用元数据对查询语句的模糊字段进行精确匹配;根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系;通过多层语句解析分析出多条查询语句之间的数据血统关系。本公开可以灵活分析各种通用结构化语句的数据血统。

【技术实现步骤摘要】

本公开涉及云计算领域,特别地,涉及一种数据血统分析方法与装置
技术介绍
数据血统关系是指数据之间的上下文关系,数据的血统分析是对数据库系统追溯查询结果的来源,以衡量数据的可信度、数据的质量。通过数据血统追踪,在分布数据共享时可以解决数据的可信度、质量、版本信息等,对于各种导出数据集也能解决这些问题。通过数据血统追踪,可以获得数据在数据流的演化过程。当前数据血统自动分析技术主要是针对主流关系型数据的标准SQL(Structured Query Language,结构化查询语言)语言的解析,通过词法分析、语法分析等技术分析SQL脚本中的数据的来由。随着现在各类数据库技术的发展,分布式数据库与非关系型数据库等在SQL语法上不再囿于过往的标准SQL规范,会有很多自身扩充的关键字或语法格式,因此,现有的基于标准SQL语法完整定义的技术难以灵活扩充解析这些分布式数据库与非关系型数据库中的数据由来。
技术实现思路
本公开鉴于以上问题中的至少一个提出了新的技术方案。本公开在其一个方面提供了一种数据血统分析方法,其可以灵活分析各种通用结构化语句的数据血统。本公开在其另一方面提供了一种数据血统分析装置,其可以灵活分析各种通用结构化语句的数据血统。根据本公开,提供一种数据血统分析方法,包括:基于模式配置对查询语句进行分析,以识别其中的目标表、目标字段、源表与源字段;获取各类数据库系统定义的或用户自定义的元数据,并利用元数据对查询语句的模糊字段进行精确匹配;根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系;通过多层语句解析分析出多条查询语句之间的数据血统关系。在本公开的一些实施例中,模式配置包括关键字语句模式、关键字集、运算符集、函数模式。在本公开的一些实施例中,基于模式配置对查询语句进行分析的步骤包括:利用模式配置中的关键字语句模式识别与提取查询语句中的关键字语句,并识别提取出的关键字语句中包含的目标表、目标字段、源表与源字段;利用模式配置中的函数模式识别查询语句中包含的函数结构,并根据函数模式提取函数结构中的目标字段;根据模式配置中的关键字集过滤查询语句中与数据血统关系无关的关键字;利用模式配置中的运算符集识别目标数据与常量集,并得出目标字段与常量集之间的关系。在本公开的一些实施例中,利用元数据对查询语句的模糊字段进行精确匹配的步骤包括:从元数据中获取数据表包含的字段信息与字段顺序。在本公开的一些实施例中,根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系的步骤包括:按照字段顺序对查询语句的目标字段和源字段进行匹配;对于查询语句中的嵌套语句,通过递归追溯原始字段以生成查询语句的数据血统关系。在本公开的一些实施例中,通过多层语句解析分析出多条查询语句之间的数据血统关系的步骤包括:根据单一语句的源表、源字段与目标表、目标字段之间的关系在多条查询语句间进行比对和分析;根据源表、源字段与目标表、目标字段的关系设置各查询语句的层级并形成各查询语句之间的数据血统关系。根据本公开,还提供了一种数据血统分析装置,包括:模式适配单元,用于基于模式配置对查询语句进行分析,以识别其中的目标表、目标字段、源表与源字段;模糊字段匹配单元,用于获取各类数据库系统定义的或用户自定义的元数据,并利用元数据对查询语句的模糊字段进行精确匹配;字段追溯单元,用于根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系;血统关系形成单元,用于通过多层语句解析分析出多条查询语句之间的数据血统关系。在本公开的一些实施例中,模式配置中包括关键字语句模式、关键字集、运算符集、函数模式。在本公开的一些实施例中,模式适配单元包括:关键字模式识别子单元,用于利用模式配置中的关键字语句模式识别与提取查询语句中的关键字语句,并识别提取出的关键字语句中包含的目标表、目标字段、源表与源字段;函数模式识别子单元,用于利用模式配置中的函数模式识别查询语句中包含的函数结构,并根据函数模式提取函数结构中的目标字段;关键字滤除子单元,用于根据模式配置中的关键字集过滤查询语句中与数据血统关系无关的关键字;常量识别子单元,用于利用模式配置中的运算符集识别目标数据与常量集,并得出目标字段与常量集之间的关系。在本公开的一些实施例中,模糊字段匹配单元从元数据中获取数据表包含的字段信息与字段顺序。在本公开的一些实施例中,字段追溯单元包括:字段匹配子单元,用于按照字段顺序对查询语句的目标字段和源字段进行匹配;递归追溯子单元,对于查询语句中的嵌套语句,用于通过递归追溯原始字段以生成查询语句的数据血统关系。在本公开的一些实施例中,血统关系形成单元包括:根据单一语句的源表、源字段与目标表、目标字段之间的关系在多条查询语句间进行比对和分析;根据源表、源字段与目标表、目标字段的关系设置各查询语句的层级并形成各查询语句之间的数据血统关系。在本公开的技术方案中,由于用户可以自定义模式配置、并且在对查询语句进行识别时只识别与血统分析相关的关键字、滤除与统计数据血统关系无关的关键字,这样就可以通过灵活地设定模式配置来实现对各类查询语句的数据血统分析。附图说明此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分。在附图中:图1是本公开一个实施例的数据血统分析方法的流程示意图。图2是语句间关联关系的一个实例的示意图。图3是以insert语句分析为例的数据血统关系示意图。图4是本公开一个实施例的数据血统分析装置的结构示意图。具体实施方式下面将参照附图描述本公开。要注意的是,以下的描述在本质上仅是解释性和示例性的,决不作为对本公开及其应用或使用的任何限制。除非另外特别说明,否则,在实施例中阐述的部件和步骤的相对布置以及数字表达式和数值并不限制本公开的范围。另外,本领域技术人员已知的技术、方法和装置可能不被详细讨论,但在适当的情况下意在成为说明书的一部分。为了解决上述现有技术中的问题,本公开下述实施例提出了一种可灵活扩展的通用结构化查询语句的数据血统分析方法,在该方法中,首先进行元数据的获取,例如,可以通过元数据接口配置提取各类数据库的系统定义或用户自定义的元数据;其次进行模式识本文档来自技高网...
数据血统分析方法与装置

【技术保护点】
一种数据血统分析方法,其特征在于,包括:基于模式配置对查询语句进行分析,以识别其中的目标表、目标字段、源表与源字段;获取各类数据库系统定义的或用户自定义的元数据,并利用所述元数据对所述查询语句的模糊字段进行精确匹配;根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系;通过多层语句解析分析出多条查询语句之间的数据血统关系。

【技术特征摘要】
1.一种数据血统分析方法,其特征在于,包括:
基于模式配置对查询语句进行分析,以识别其中的目标表、目标字
段、源表与源字段;
获取各类数据库系统定义的或用户自定义的元数据,并利用所述元
数据对所述查询语句的模糊字段进行精确匹配;
根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数
据血统关系;
通过多层语句解析分析出多条查询语句之间的数据血统关系。
2.根据权利要求1所述的数据血统分析方法,其特征在于,所述模
式配置中包括关键字语句模式、关键字集、运算符集和函数模式。
3.根据权利要求2所述的数据血统分析方法,其特征在于,基于模
式配置对查询语句进行分析的步骤包括:
利用所述模式配置中的关键字语句模式识别与提取查询语句中的关
键字语句,并识别提取出的关键字语句中包含的目标表、目标字段、源
表与源字段;
利用所述模式配置中的函数模式识别所述查询语句中包含的函数结
构,并根据所述函数模式提取函数结构中的目标字段;
根据所述模式配置中的关键字集过滤所述查询语句中与数据血统关
系无关的关键字;
利用所述模式配置中的运算符集识别目标数据与常量集,并得出目
标字段与常量集之间的关系。
4.根据权利要求1所述的数据血统分析方法,其特征在于,利用所
述元数据对所述查询语句的模糊字段进行精确匹配的步骤包括:
从所述元数据中获取数据表包含的字段信息与字段顺序。
5.根据权利要求4所述的数据血统分析方法,其特征在于,根据识
别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系
的步骤包括:
按照所述字段顺序对所述查询语句的目标字段和源字段进行匹配;
对于所述查询语句中的嵌套语句,通过递归追溯原始字段以生成查
询语句的数据血统关系。
6.根据权利要求1所述的数据血统分析方法,其特征在于,所述通
过多层语句解析分析出多条查询语句之间的数据血统关系的步骤包括:
根据单一语句的源表、源字段与目标表、目标字段之间的关系在多
条查询语句间进行比对和分析;
根据源表、源字段与目标表、目标字段的关系设置各查询语句的层
级并形成各查询语句之间的数据血统关系。
7.一种数据血统分析装置,其特征在...

【专利技术属性】
技术研发人员:陈翀陈康向勇张青吴旭刘春高智衡陶彩霞关迎辉
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1