一种ETL数据血统查询系统及查询方法技术方案

技术编号:12061984 阅读:70 留言:0更新日期:2015-09-17 12:43
本发明专利技术涉及一种ETL数据血统查询系统,其特征在于,包括一运行模块与一数据血统管理模块,所述运行模块能够运行任务脚本、并且能够划分任务形成带有操作信息的任务脚本文件,并将所述带有操作信息的任务划分文件传送至所述数据血统管理模块;所述数据血统管理模块能够接受用户配置文件,收集源数据文件、带有操作信息的任务脚本文件,对数据血统信息进行存储。

【技术实现步骤摘要】

本专利技术涉及数据管理领域,特别涉及一种ETL数据血统查询系统及查询方法。技术背景随着企业业务范围的扩大,企业需要对各个区域的不同业务的数据进行集成并分析。可以认为,商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力,促使他们做出对企业更有利的决策。商业智能一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。ETL过程就是构建数据仓库的重要过程。ETL是Extract1n Transformat1nLoading的缩写,中文名称为数据抽取、转换和加载。ETL负责将来自不同系统的,属于同主题的且具有不同数据结构的数据抽取到中间层后进行数据格式的转换和数据内容的清洗,最后加载到数据仓库中,是构建数据仓库非常重要的一环。目前ETL主要过程为转换,我们需要对ETL过程进行监督。目前的ETL过程监督只能单独监督某个中间过程的输出字段和输出预览,不能有效给出整个ETL过程的数据修改情况。这将使得在ETL过程创建完成后非常不易于修改,因为一旦修改其中某个环节,该环节之后的环节都必须单独检查和修正,ETL过程不易于改进。鉴于上述缺陷,本专利技术创作者经过长时间的研宄和实践终于获得了本专利技术。
技术实现思路
为解决上述技术缺陷,本专利技术采用的技术方案在于,提供一种ETL数据血统查询系统,其特征在于,包括一运行模块与一数据血统管理模块,所述运行模块能够运行任务脚本、并且能够划分任务形成带有操作信息的任务脚本文件,并将所述带有操作信息的任务划分文件传送至所述数据血统管理模块;所述数据血统管理模块能够接受用户配置文件,收集源数据文件、带有操作信息的任务脚本文件,对数据血统信息进行存储。较佳的,所述运行模块包括:一操作划分单元,用于对任务脚本进行划分、形成带有操作信息的任务脚本文件;一脚本运行单元:获取源数据与运行带有操作信息的任务划分文件,运行任务;较佳的,所述数据血统管理模块包括:一数据血统获取单元,能够发送和接受用户配置文件、获取操作信息的任务脚本文件,将数据血统写入数据血统表与数据血统附属表;一数据血统存储单元,用于存储所述数据血统表与数据血统附属表。较佳的,所述数据血统获取单元包括:一操作信息获取子单元,用于获取用户配置文件、带有操作信息的任务脚本文件与任务源文件;一字段信息获取子单元,用于获取一次操作的字段信息;一控制子单元,用于根据所述操作信息获取子单元与所述字段信息获取子单元获取的数据进行判断,确定对应操作对每个字段的行为结果。较佳的,所述控制子单元能够对当前运行任务进行监控。较佳的,所述行为结果包括:增行,减行,添加,删除,更新,修改元数据,查询。较佳的,包括步骤:S1:用户填写配置文件,所述配置文件由数据血统获取单元获取;S2:操作划分单元获取ETL任务脚本并对其处理,生成带有操作信息的任务脚本文件;S3:所述脚本运行单元获取带有操作信息的任务脚本文件进行处理,生成脚本运行文件;S4:数据血统获取单元获取脚本运行文件、源数据文件进行分析,获取数据血统;S5:所述数据血统获取单元将数据血统写入数据血统表与数据血统附属表;S6:所述数据血统获取单元将数据血统表与数据血统附属表存入数据血统存储单J L.ο较佳的,所述步骤S4具体为:操作信息获取子单元根据配置文件获取一些列的操作的操作号与SQL语言,字段信息获取子单元获取一次操作所得到的字段。与现有技术相比较,本专利技术的有益效果在于:开发人员可以自行设置参数,选择需要查看的数据血统,此装置可以把用户需要的数据血统以图表的方式展示出来。该图表包含了操作的顺序和每个操作对数据的行为。该方法及装置还有出错检测功能,操作出错情况可以显示在上述图表中。此外,用户还可以任意选择任务断点以及查看该断点的数据输出情况及数据血统。【附图说明】图1为本专利技术中所述ETL数据血统查询系统结构示意图;图2为本专利技术中所述数据血统获取单元结构示意图。【具体实施方式】为便于本领域技术人员对本专利技术的技术方案和有益效果进行理解,特结合附图对【具体实施方式】进行如下描述。请参见图1所示,图1为本专利技术所述ETL数据血统查询系统结构图。一种ETL数据血统查询系统,包括运行模块I与数据血统管理模块2。所述运行模块I将数据处理任务进行划分、运行,所述数据血统管理模块2能够对系统运行中所涉及到的数据、数据血统进行管理,形成数据血统表和数据血统附属表。所述运行模块I包括一操作划分单元11与一脚本运行单元12。操作划分单元11,将输入到操作划分单元11的ETL任务脚本文件中的ETL任务划分成操作并且输出带有操作信息的任务脚本文件。所述操作划分单元11将ETL任务划分成操作的规则是以处理后的数据行全部输出到缓存为一次操作。将任务分成一系列的操作后为操作编号。将操作开始、操作结束和操作序号统称为操作信息,将操作信息写入ETL任务脚本文件生成带有操作信息的ETL任务脚本文件。带有操作信息的ETL任务脚本文件是带有操作开始、操作结束和操作序号的ETL任务脚本文件。脚本运行单元12与所述操作划分单元11相连,接收操作号、行数和源数据文件,执行所述操作划分单元11输入到脚本运行单元12的带有操作信息的任务脚本文件,输出所述操作号对应的操作输出的所述行数的缓存行集。所述源数据文件包括各种关系型数据文件和关系型数据库表。脚本运行单元102根据操作号确定要运行到的操作,根据行数确定运行结束后需要输出到缓存行集的数据行的行数。所述数据血统管理模块2包括一数据血统获取单元21与一数据血统存储单元22。所述数据血统获取单元与所述操作划分单元11相连,并且获取所述操作划分单元11生成的带有操作信息的任务脚本当前第1页1 2 本文档来自技高网...

【技术保护点】
一种ETL数据血统查询系统,其特征在于,包括一运行模块与一数据血统管理模块,所述运行模块能够运行任务脚本、并且能够划分任务形成带有操作信息的任务脚本文件,并将所述带有操作信息的任务划分文件传送至所述数据血统管理模块;所述数据血统管理模块能够接受用户配置文件,收集源数据文件、带有操作信息的任务脚本文件,对数据血统信息进行存储。

【技术特征摘要】

【专利技术属性】
技术研发人员:许飞月李青海简宋全侯大勇邹立斌
申请(专利权)人:广州精点计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1