一种数据仓库的血统分析方法和装置制造方法及图纸

技术编号：12032373 阅读：296 留言：0更新日期：2015-09-10 19:51

本申请公开了一种数据仓库的血统分析方法和装置，其中，方法包括：对于当前执行的HIVE SQL语句段，进行拆分预处理，得到一组有效子语句，每个所述有效子语句为最小的可执行语句；对于每个所述有效子语句，进行语法、词法和语义分析，生成相应的抽象语法树；对于每个抽象语法树，遍历该抽象语法树中的每个节点，在每个节点采集相应的节点数据，并将所述节点数据与相应的数据仓库元数据关联后保存。采用本发明专利技术，可以提高血统分析数据的应用价值，有利于用户的数据回溯以及分析数据仓库上游元数据对下游的影响。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据仓库技术，特别是涉及一种数据仓库的血统分析方法和装置。
技术介绍
随着互联网大爆发以来，面对日益增长的海量数据，用以支撑主流搜索引擎公司，电子商务，社交网站的传统数据仓库(Data Warehouse,Dff)系统早已不堪重负了，而构建于分布式系统基础架构Hadoop集群之上的数据仓库工具Hive的出现恰逢其时，已成为实现大数据时代分布式数据仓库的福音。近年来数据仓库的数据质量问题已经严重影响了商务智能的应用能力。基础数据的正确性、真实性直接影响到报表和分析结果的可信度，因此需要快速回溯数据的来龙去脉和精确追踪数据的最底层来源。有时需要准确评估仓库上游数据变更，对下游应用的影响，有时需要分析表及字段的重要程度或无关程度，而这一切都需要通过分析数据仓库的元数据给出答案。这个领域就是数据仓库的血统分析。数据仓库的血统分析是建立在仓库的元数据基础上的，在整个数据仓库中元数据的范畴是极其广泛，从底层到应用层都有其用武之地。具体地，在数据来源方面，需要包含源系统的库表信息等；在数据采集层，元数据需要清楚地记录数据仓库的映射关系、ETL程序信息、数据转换清洗的规则等；在数据存储和基础层，元数据需要清楚描述DW数据的物理结构、数据字典、资源目录等详细信息；在应用服务层，元数据则需要包含数据分析模型、KPI关键业务指标等。通过数据血统分析，可以获得数据在数据流中的演化过程，包括数据的起源和处理这些数据的所有后继过程。实现数据仓库的血统分析主要包括数据血统的计算、存储和查询等。现有成熟的血统分析工具都是基于传统数据仓库的特定商业实现，还没有基于H...

【技术保护点】
一种数据仓库的血统分析方法，其特征在于，包括：对于当前执行的蜂巢结构化查询语言HQL语句段，进行拆分预处理，得到一组有效子语句，每个所述有效子语句为最小的可执行语句；对于每个所述有效子语句，进行语法、词法和语义分析，生成相应的抽象语法树；对于每个抽象语法树，遍历该抽象语法树中的每个节点，在每个节点采集相应的节点数据，并将所述节点数据与相应的数据仓库元数据关联后保存。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘志祖，张军，牟一超，张凯，曾卓豪，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人