一种数据仓库的构建方法、系统及服务器技术方案

技术编号:18444886 阅读:28 留言:0更新日期:2018-07-14 10:22
本发明专利技术提供一种数据仓库的构建方法、系统及服务器,所述方法包括:构建多层数据处理架构将数据分层处理;从数据源抽取所需的数据并将抽取的数据清洗成符合预设要求的数据;对数据处理任务进行调度和监管;对多层数据处理架构中的数据的访问权限进行控制并对数据的整体运行状况进行监管;所述多层数据处理架构包括:临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。本发明专利技术可以快速构建企业数据仓库,降低仓库构建的复杂度,缩短企业搭建数据仓库的开发周期,减少仓库开发、运维成本,具有广泛的应用前景。

Method, system and server for building data warehouse

The invention provides a method, system and server for a data warehouse. The method includes: building a multi-layer data processing architecture to process data stratified; extracting the required data from the data source and cleaning the extracted data into data that meets the preset requirements; scheduling and supervising the data processing tasks; and on the multi-layer number. The access rights of the data in the processing architecture are controlled and the overall operation of the data is regulated. The multi-layer data processing architecture includes temporary storage of data acquired from the data source, the core data layer that stores and processes the cleaned data, and organizes the data. The data mart layer corresponding to the data subject and the application layer for the user to process the specific data of user input. The invention can quickly build enterprise data warehouse, reduce the complexity of warehouse construction, shorten the development cycle of building data warehouse, reduce the cost of warehouse development and operation and maintenance, and have a wide application prospect.

【技术实现步骤摘要】
一种数据仓库的构建方法、系统及服务器
本专利技术涉及计算机软件
,具体为一种数据仓库的构建方法、系统及服务器。
技术介绍
数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。数据仓库,由数据仓库之父比尔·恩门(BillInmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(DataMining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。数据仓库是一个为企业决策者提供数据分析处理的集成、统一的数据平台;其主要用于支持经营管理中的,数据分析、决策支持、数据挖掘、业务报表等;数据仓库的目的是建立一种体系结构化的数据存储环境,将分析决策所需要的大量数据从传统的操作环境中分离出来,使分散、不一致的操作数据转换为集成、统一的信息。主要有以下特点:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。信息技术与数据智能大环境下,数据仓库在软硬件领域、Internet和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源,可以保存极大量的数据供分析使用,且允许使用多种数据访问技术。近年来,随着互联网行业的快速发展,越来越多的企业出于对业务发展和风险控制的需要都急需建立一套自己的数据仓库供决策分析、模型训练使用。互联网与传统企业数据的差异:1)数据量爆炸式增长,远快于传统企业数据的增长速度;2)互联网行业的数据多样性,不但包含了大量的传统的结构化数据,而且包含了许多非结构化的数据;3)互联网企业对于数据时效性的要求要远高于传统型企业;4)仓库分析的结果需要能够对业务进行快速响应;5)互联网行业的业务变化非常快,不可能像传统行业一样,使用自顶向下的方法建立数据仓库,它要求新的业务很快能融入数据仓库中来,老的下线的业务,能很方便的从现有的数据仓库中下线。传统的数据仓库开发和运维成本较高,建设周期长,数据格式单一,已不能满足互联网企业的快速发展的需求。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种数据仓库的构建方法、系统及服务器,用于解决现有技术中数据仓库的构建开发周期较长,开发和运维成本较高的问题。为实现上述目的及其他相关目的,本专利技术提供一种数据仓库的构建方法,所述数据仓库的构建方法包括:构建多层数据处理架构将数据分层处理;从数据源抽取所需的数据并将抽取的数据清洗成符合预设要求的数据;对数据处理任务进行调度和监管;对所述多层数据处理架构中的数据的访问权限进行控制并对数据的整体运行状况进行监管。于本专利技术的一实施例中,所述多层数据处理架构包括:临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。于本专利技术的一实施例中,所述从数据源抽取所需的数据中包括:数据抽取选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。于本专利技术的一实施例中,所述将抽取的数据清洗成符合预设要求的数据中包括:将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。于本专利技术的一实施例中,所述对数据处理任务进行调度包括:将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度;对数据处理任务进行监管包括:监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。为实现上述目的,本专利技术还提供一种数据仓库的构建系统,所述数据仓库的构建系统包括:分层模块,用于构建多层数据处理架构将数据分层处理;抽取模块,用于从数据源抽取所需的数据;清洗模块,用于将抽取的数据清洗成符合预设要求的数据;调度模块,用于对数据处理任务进行调度;任务监管模块,对数据处理任务进行监管;权限管理模块,用于对所述多层数据处理架构中的数据的访问权限进行控制;数据监管模块,用于对数据的整体运行状况进行监管。于本专利技术的一实施例中,所述分层模块构建的多层数据处理架构包括:临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。于本专利技术的一实施例中,所述抽取模块从数据源抽取所需的数据时选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。于本专利技术的一实施例中,所述清洗模块将抽取的数据清洗成符合预设要求的数据中包括:将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。于本专利技术的一实施例中,所述调度模块对数据处理任务进行调度包括:将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度;所述任务监管模块对数据处理任务进行监管包括:监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。为实现上述目的,本专利技术还提供一种服务器,所述服务器包括如上所述的数据仓库的构建系统。如上所述,本专利技术的一种数据仓库的构建方法、系统及服务器,具有以下有益效果:本专利技术可以快速构建企业数据仓库,降低仓库构建的复杂度,缩短企业搭建数据仓库的开发周期,减少仓库开发、运维成本,具有广泛的应用前景。附图说明图1显示为本专利技术的一种数据仓库的构建方法的具体流程示意图。图2显示为本专利技术的一种数据仓库的构建方法的构建示意图。图3显示为本专利技术的一种数据仓库的构建系统的原理框图。元件标号说明100数据仓库的构建系统101分层模块102抽取模块103清洗模块104调度模块105任务监管模块106权限管理模块107数据监管模块S101~S104步骤具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了本文档来自技高网
...

【技术保护点】
1.一种数据仓库的构建方法,其特征在于,所述数据仓库的构建方法包括:构建多层数据处理架构将数据分层处理;从数据源抽取所需的数据并将抽取的数据清洗成符合预设要求的数据;对数据处理任务进行调度和监管;对所述多层数据处理架构中的数据的访问权限进行控制并对数据的整体运行状况进行监管。

【技术特征摘要】
1.一种数据仓库的构建方法,其特征在于,所述数据仓库的构建方法包括:构建多层数据处理架构将数据分层处理;从数据源抽取所需的数据并将抽取的数据清洗成符合预设要求的数据;对数据处理任务进行调度和监管;对所述多层数据处理架构中的数据的访问权限进行控制并对数据的整体运行状况进行监管。2.根据权利要求1所述的数据仓库的构建方法,其特征在于,所述多层数据处理架构包括:临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。3.根据权利要求1所述的数据仓库的构建方法,其特征在于,所述从数据源抽取所需的数据中包括:数据抽取选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。4.根据权利要求1所述的数据仓库的构建方法,其特征在于,所述将抽取的数据清洗成符合预设要求的数据中包括:将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。5.根据权利要求1所述的数据仓库的构建方法,其特征在于,所述对数据处理任务进行调度包括:将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度;对数据处理任务进行监管包括:监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。6.一种数据仓库的构建系统,其特征在于,所述数据仓库的构建系统包括:分层模块,用于构建多层数据处理架构将数据分层处理;抽取模块,用于从数...

【专利技术属性】
技术研发人员:董林
申请(专利权)人:上海前隆信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1