一种数据仓库数据处理方法和系统技术方案

技术编号：12022051 阅读：107 留言：0更新日期：2015-09-09 19:03

本发明专利技术提供一种数据仓库数据处理方法，包括：从业务系统中抽取出原始数据并生成源系统数据表；对源系统数据表去冗余并对数据记历史，建立历史数据表；建立事实数据表对历史数据表的数据进行归类；对事实数据表的数据进行汇总，建立汇总数据表；统计两个或两个以上汇总数据表之间的指标数据，建立统计数据表；基于事实数据表、汇总数据表、统计数据表的数据，建立应用数据表。本发明专利技术提供的数据仓库数据处理方法，避免了通用维度模型层中每一层级内部的任务相互依赖，使得任务的并行数目达到最大，计算机资源能够被有效利用，从而提高数据仓库数据处理的效率。本发明专利技术还提供了相应的数据仓库数据处理系统，能够实现本发明专利技术的数据仓库数据处理方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据库领域，尤其涉及一种数据仓库数据处理方法和系统。
技术介绍
数据库(Database )是按照数据结构来组织、存储和管理数据的仓库。对数据库数据的处理大致分为两类:一类是操作型处理，这类处理通常用于对数据库中的少数记录进行查询、修改；另一类是分析型处理，这类处理一般用于对历史数据进行分析，使得数据能够应用于决策，所述分析型处理后得到的面向主题的、集成的、与时间相关的、不可修改的数据集合可以称为数据仓库。数据仓库的任务主要是把信息加以整理归纳和重组，并及时提供给决策人员。目前数据仓库的数据处理通常通过分布式系统来实现，所述分布式系统可以将多台计算机联合起来，构成计算机群，并行处理大规模的数据，同时在多台计算机上运行不同任务。目前数据仓库中对数据进行处理一般建立在ETL数据处理理论的基础上的，ETL是指Extract1n (抽取)、Transformat1n (转换)、和Loading (加载)。具体的ETL操作包括:将业务系统中的数据抽取出来，并将不同数据源的数据按照业务需要进行转换和整合，得出目标数据，然后将目标数据加载到数据仓库中。数据仓库一般是以数据表的结构存储数据，每个数据表对应一个数据对象。数据表是指一系列二维数组的集合，通常用来代表和储存数据对象之间的关系。数据库表可以由纵向的列和横向的行组成，例如一个有关作者信息的名为“作者”的表中，每个列包含的是所有作者的某个特定类型的信息，比如“姓氏”，而每行则包含了某个特定作者的所有信息:姓、名、住址等等。对于特定的数据库表，列的数目一般事先固定，各列之间可以由列名来识别。在数...

【技术保护点】
一种数据仓库数据处理方法，其特征在于，包括：从业务系统中抽取出原始数据并生成源系统数据表；对源系统数据表去冗余并对数据记历史，建立历史数据表；建立事实数据表对历史数据表的数据进行归类；对事实数据表的数据进行汇总，建立汇总数据表；统计两个或两个以上汇总数据表之间的指标数据，建立统计数据表；基于事实数据表、汇总数据表、统计数据表的数据，建立应用数据表。

【技术特征摘要】

【专利技术属性】
技术研发人员：徐玉鹏，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人