一种数据加载清洗引擎、调度与存储系统技术方案

技术编号:14113689 阅读:179 留言:0更新日期:2016-12-07 11:05
本发明专利技术公开了一种数据加载清洗引擎、调度与存储系统,包括数据源、数据仓库和用户展现模块,数据仓库连接有ETL管理模块,ETL管理模块包括ETL调度模块、ETL监控模块、数据质量模块和ETL任务模块,数据仓库包括接口文件区、细节数据暂存区SSA、细节数据SOR、数据集市、数据总结模块、反馈模块和元数据存储MDR。本发明专利技术具有实用性强,数据管理便捷,灵活性高,易于推广,高效能数据处理,大吞吐量,能够应对添加更多的数据源,支持更多分析需求的优点。

【技术实现步骤摘要】

本专利技术属于计算机
,尤其涉及一种数据加载清洗引擎、调度与存储系统
技术介绍
大数据技术的迅猛发展和信息化的推进,使得人类社会所积累的数据量已经超过了过去5000年的总和,海量数据的采集、存储、处理和传播的数量也与日俱增。企业实现数据共享,可以使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。但是,在实施数据共享的过程当中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后,丢失信息等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。因此,如何对海量数据进行有效的集成管理已成为增强商业银行竞争力的必然选择。近几年来,随着Hadoop、Spark等大数据处理技术的发展,数据已经引起人们重视,成为与水、石油同等重要的战略资源。当前大量数据主要存储在传统的SQL数据库中,与大数据技术使用的NoSQL数据库有很大的不同,同时由于数据的多样性特点,使用大数据平台处理数据前,需要把数据导入大数据平台自己的存储系统,且在导入时一般需要进行ETL处理,完成各类数据的抽取,清洗,装载等过程。传统ETL系统主要运行的单机上,也有分布式ETL处理,但主要是面向多任务场景。这些传统的ETL系统功能已经发展的较为完善,但是在应对大数据量的场景时,在处理速度上难以满足处理需求,功能对接上存在很多偏差,导致传统的ETL处理方式难堪重负。
技术实现思路
本专利技术目的在于解决现有技术中存在的上述技术问题,提供一种数据加载清洗引擎、调度与存储系统,具有实用性强,数据管理便捷,灵活性高,易于推广,高效能数据处理,大吞吐量,能够应对添加更多的数据源,支持更多分析需求的优点。为了解决上述技术问题,本专利技术采用如下技术方案:一种数据加载清洗引擎、调度与存储系统,其特征在于:包括数据源、数据仓库和用户展现模块,数据仓库连接有ETL管理模块,ETL管理模块包括ETL调度模块、ETL监控模块、数据质量模块和ETL任务模块,ETL调度模块用于控制所有ETL任务的运行,ETL监控模块用于跟踪监控ETL任务的运行,数据质量模块用于跟踪数据仓库的数据质量,ETL任务模块用于完成具体的数据ETL工作;数据仓库包括接口文件区、细节数据暂存区SSA、细节数据SOR、数据集市、数据总结模块、反馈模块和元数据存储MDR,细节数据SOR连接数据总结模块,数据总结模块连接反馈模块,文件接口区用于存储和处理接口文件,文件接口区连接有权限设定模块,权限设定模块用于按照特定的目录结构组织起来,对每个目录按照其特定的用途设定对不同用户的访问权限,ETL管理模块以元数据为中心进行交互和协作,从数据源中抽取数据,然后进行传转换、清洗和加载,按照定义好的数据仓库模型,将数据加载到数据仓库中,很好地满足数据集成的续期,实现各业务之间的数据的汇总和分发;细节数据暂存区SSA连接有验证模块,验证模块连接有查找模块,查找模块连接细节数据SOR,验证模块连接有处理模块,处理模块连接细节数据SOR,细节数据SOR连接有交换分区模块,元数据存储MDR用来保存关于数据仓库中的过程和数据的信息,元数据存储MDR连接有元数据管理模块;数据集市连接有多维立方体模块,多维立方体模块用于存储多维数据,数据仓库和数据集市存储在一个TDH数据群内,各个不同的数据在TDH数据群内按不同的私有区域来区分,数据集市存储在三维视觉区域内,用于分析多维数据,多维立方体模块存储在集成区域内;交换分区模块采用“分区忽略”和“分而治之”两种分区机制,可以减少导入数据操作对用户实时访问数据的影响,操作模式就像使用可热插拔的硬盘一样,使用方便,在性能上,由于系统中存储了海量数据,可以通过“分区忽略”能够有效地提高查询性能,可以提高数据的可管理性和可用性,如数据删除、数据备份等,采取“分而治之”进行更加完善快捷的管理,可以将任务产生的故障局限在分区中,并且可以有效地缩短恢复时间;由于各个工具和系统都会生成自己的元数据,利用元数据管理模块把这些元数据尽可能的集中存储到元数据存储MDR内,元数据存储MDR只是一个共享元数据供用户集中访问的地方,真正元数据的维护地还是在生成这些元数据的系统和工具内;用户展现模块连接有查询模块,查询模块用于根据用户需求展现业务内容。该系统具有实用性强,数据管理便捷,灵活性高,易于推广,高效能数据处理,大吞吐量,能够应对添加更多的数据源,支持更多分析需求的优点。进一步,ETL调度模块连接有时间设定模块,每个任务都可以设定在什么时候执行,使得每个任务都能够在指定的时刻自动运行,任务的执行周期具有很大的差异性,有的定义了时间间隔,有的定义了确定时间,通过时间设定模块在系统中建立了一个调度链表,链表中的每个结点包含了“任务的调度信息”和“下次执行时刻”,并始终按照“下次执行时刻”从小到大进行排序,提高了调度效率,以应对大数量的任务。进一步,ETL监控模块连接有故障处理模块,故障处理模块连接ETL调度模块,当出现任务运行错误或是故障时,故障处理模块会重新分配任务,保证系统继续运行。进一步,ETL任务模块连接有图形转化模块,图形转化模块将任务的运行情况转化为可视化的图形,直观清楚。进一步,接口文件区的数据处理工具主要是Kettle,接口文件区在Unix系统下按照特定的目录结构组织起来,通过权限设定模块对每个目录按照其特定的用途设定对不同用户的访问权限,相互独立,分区明确。进一步,细节数据SOR是基于BDW开发的一套符合3NF范式规范的表结构,细节数据SOR存储了数据仓库内最细节层次的数据,通过交换分区模块按照不同的主题域进行分类组织,细节数据SOR作为企业数据模型,是整个数据仓库数据模型的核心,具有足够的灵活性,能够应对添加更多的数据源,支持更多分析需求,扩大了系统的适用范围。进一步,细节数据SOR连接有BDW升级更新模块,通过BDW升级更新模块可支持BDW的进一步升级和更新。进一步,ETL管理模块采用微软的DTS组件,通过标准接口OLE DB或ODBC定义ETL过程的数据源连接,通过DTS自带的抽取规则或使用T-SQL脚本语言定义数据抽取、清洗和转换方法,使用微软SQL Server的DTS工具设计并完成所有的数据仓库中的ETL操作。进一步,数据集市呈星型或雪花型结构,数据集市是数据仓库的一个子集,可以称作\小数据仓库\,数据集市的应用是对数据仓库应用的补充,数据集市为面向分析的多维数据,为特定用户存储预先计算好的数据,从而满足用户特殊的需求,具有独立性,访问快速且方便,不受系统进行中的更新的影响。本专利技术由于采用了上述技术方案,具有以下有益效果:本专利技术快速地实现了自动、可靠的数据采集、传输、转换和加载,ETL处理速度快,能够完成大数据量的处理加工,使得ETL任务执行起来更加容易实现,并能支持多任务执行,相互独立,互不影响,且降低了ETL数据处理的成本,提高了ETL数据处理的性能,提高了数据的可管理性和可用性,细节数据SOR作为企业数据模型,是整个数据仓库数据模型的核心,具有足够的灵活性,能够应对添加更多的数据源,支持更多分析需求,系统的适用范围大大增强。本专利技术具有实用性强,数据管理便捷,灵活本文档来自技高网...
一种数据加载清洗引擎、调度与存储系统

【技术保护点】
一种数据加载清洗引擎、调度与存储系统,其特征在于:包括数据源、数据仓库和用户展现模块,所述数据仓库连接有ETL管理模块,所述ETL管理模块包括ETL调度模块、ETL监控模块、数据质量模块和ETL任务模块,所述ETL调度模块用于控制所有ETL任务的运行,所述ETL监控模块用于跟踪监控ETL任务的运行,所述数据质量模块用于跟踪数据仓库的数据质量,所述ETL任务模块用于完成具体的数据ETL工作;所述数据仓库包括接口文件区、细节数据暂存区SSA、细节数据SOR、数据集市、数据总结模块、反馈模块和元数据存储MDR,所述细节数据SOR连接所述数据总结模块,所述数据总结模块连接所述反馈模块,所述文件接口区用于存储和处理接口文件,所述文件接口区连接有权限设定模块,所述权限设定模块用于按照特定的目录结构组织起来,对每个目录按照其特定的用途设定对不同用户的访问权限;所述细节数据暂存区SSA连接有验证模块,所述验证模块连接有查找模块,所述查找模块连接所述细节数据SOR,所述验证模块连接有处理模块,所述处理模块连接所述细节数据SOR,所述细节数据SOR连接有交换分区模块,所述元数据存储MDR用来保存关于数据仓库中的过程和数据的信息,所述元数据存储MDR连接有元数据管理模块;所述数据集市连接有多维立方体模块,所述多维立方体模块用于存储多维数据;所述用户展现模块连接有查询模块,所述查询模块用于根据用户需求展现业务内容。...

【技术特征摘要】
1.一种数据加载清洗引擎、调度与存储系统,其特征在于:包括数据源、数据仓库和用户展现模块,所述数据仓库连接有ETL管理模块,所述ETL管理模块包括ETL调度模块、ETL监控模块、数据质量模块和ETL任务模块,所述ETL调度模块用于控制所有ETL任务的运行,所述ETL监控模块用于跟踪监控ETL任务的运行,所述数据质量模块用于跟踪数据仓库的数据质量,所述ETL任务模块用于完成具体的数据ETL工作;所述数据仓库包括接口文件区、细节数据暂存区SSA、细节数据SOR、数据集市、数据总结模块、反馈模块和元数据存储MDR,所述细节数据SOR连接所述数据总结模块,所述数据总结模块连接所述反馈模块,所述文件接口区用于存储和处理接口文件,所述文件接口区连接有权限设定模块,所述权限设定模块用于按照特定的目录结构组织起来,对每个目录按照其特定的用途设定对不同用户的访问权限;所述细节数据暂存区SSA连接有验证模块,所述验证模块连接有查找模块,所述查找模块连接所述细节数据SOR,所述验证模块连接有处理模块,所述处理模块连接所述细节数据SOR,所述细节数据SOR连接有交换分区模块,所述元数据存储MDR用来保存关于数据仓库中的过程和数据的信息,所述元数据存储MDR连接有元数据管理模块;所述数据集市连接有多维立方...

【专利技术属性】
技术研发人员:孙永剑郑书礼裘鑫芳董磊
申请(专利权)人:浙江理工大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1