一种敏捷数据仓库架构及其构建方法和应用技术

技术编号:31984846 阅读:38 留言:0更新日期:2022-01-20 02:03
本发明专利技术涉及数据仓库技术领域,具体地说,涉及一种敏捷数据仓库架构及其构建方法和应用。包括数据源、存储层、数据仓库、分析工具、应用层,其中,数据仓库主要包括数仓模型和数仓工具两个项目,数仓模型用于解决数据可用的问题,数仓工具用于解决数据易用的问题。本发明专利技术设计的架构通过将不同来源的数据进行调和,实现数据口径一致,明确数据的含义和正确性;其构建方法将概念分析、逻辑设计和物理实现紧密结和,合理设计数据存储和管理方式,重组数据,加强和优化数据仓库质量控制的过程,提高数仓的实用性;其应用可以提供高效明细的数据,适用于大量的应用场景和用户,满足不同层次的数据需求,并可适应于企业的业务及产品的不断变化过程。化过程。化过程。

【技术实现步骤摘要】
一种敏捷数据仓库架构及其构建方法和应用


[0001]本专利技术涉及数据仓库
,具体地说,涉及一种敏捷数据仓库架构及其构建方法和应用。

技术介绍

[0002]数据仓库是为企业所有级别的决策制定过程、提供所有类型数据支持的战略集合。数据仓库不仅包含了分析所需的数据,而且包含了处理数据所需的应用程序,这些程序包括了将数据由外部媒体转入数据仓库的应用程序,也包括了将数据加以分析并呈现给用户的应用程序。数据仓库具有面向主题、集成、稳定、随时间变化和支持管理决策五个基本的特点。随着互联网的迅速发展,企业的业务及产品也在经历不断的飞速发展过程.数据仓库如何适应变化,成了制约发展的问题之一;决策者追求精细化运营,要求数据仓库具有提供高效明细数据的能力,数据仓库如何实现满足不同层次的数据需求制约发展的问题之二;数据经过 ETL 后最终到达使用数据者手里,提取数据和提出数据的需求往往来自不同的部门和出于不同的目的,会导致数据口径不一致、数据含义模糊,甚至数据正确性很难校验,数据仓库如何保证数据口径一致及数据路径可追溯性成为制约发展的问题之三。然而,现有技术中却没有能够解决上述问题的敏捷数据仓库的架构、构建方法及其应用。

技术实现思路

[0003]本专利技术的目的在于提供一种敏捷数据仓库架构及其构建方法和应用,以解决上述
技术介绍
中提出的问题。为实现上述技术问题的解决,本专利技术的目的之一在于,提供了一种敏捷数据仓库架构,包括:数据源:主要包括传统数据库 DB 和日志集群文件两种来源,用于获取操作型与应用相关的业务数据:存储层:主要通过包括计算引擎、开发工具和平台等数据仓库工具,用于解决 ETL 问题,实现数据稳定正确的传输,并提供可靠的存储计算环境;数据仓库:主要包括数仓模型和数仓工具两个项目,数仓模型用于解决数据可用的问题,数仓工具用于解决数据易用的问题;分析工具:主要通过计息查询工具、多维分析工具、搜索分析工具、报表系统等工具进行数据分析,用于解决各种不同角色用户如何使用数据仓库的问题;应用层:用于根据用户的需求分析结果,将构建好的数据仓库架构应用于不同的业务场景及用户。作为本技术方案的进一步改进,所述数据仓库中:数仓模型主要包括近源数据层、数据宽表和基础指标层;近源数据层为封装中间层,用于合并不同业务数据、屏蔽脏数据、合并冗余字段等,近源数据层基本上与数据源保持一致的字段结构,具体为:数据源中的传统数据库 DB 按照业务的结构导入数据仓库,日志文件根据字段映射成 Hive 表至数据仓库;数据宽表用于从近源数据层中提取足够常用的字段;基础指标层用于从宽表中提取直观的基础指标表;数仓工具主要包括但不限于数据字典、数据地图、权限管理等。作为本技术方案的进一步改进,所述近源数据层主要包括调和数据层、衍生数据层、全局数据仓库及元数据,具体为:调和数据层:属于不同数据源的数据形成调和层,并将所有数据放入全局数据仓库中进行一致性的调和处理;衍生数据层:从调和数据经过过滤和概
括进入各数据集市用于决策支持,形成衍生数据,数据集市作用为管理用于决策支持的用于各个部门的数据、模式和应用;全局数据仓库:用于管理与调和数据有关的数据、模式和应用;元数据:用于提供关于数据源、模式和交互的有关信息。其中,对所有数据进行调和可以避免同一个问题得到不同回答的局面。本专利技术的目的之二在于,提供了一种敏捷数据仓库架构的构建方法,该方法用于构建上述所述的敏捷数据仓库架构,包括如下步骤: S1、概念分析:以数据为中心进行分析需求,按照明确/潜在的分析需求来设计数据的存储和管理方式; S2、逻辑设计:根据企业的业务模型和数据仓库的基本理论,对源系统中的数据进行重组设计,完成数据仓库的设计工作; S3、物理实现:开发人员借助一定的工具或程序语言,从源数据库中抽取数据,实现上述逻辑设计所描述的数据仓库和客户端数据库的任务; S4、数据仓库质量控制:根据用户划分数据仓库的质量类别,分别加强并优化数据仓库质量的控制。其中,所述 S1 中,明确的分析需求(或称日常分析需求)是指客户的业务决策人员日常决策需要经常查询的信息,这些需求一般可以通过客户对历史管理活动的总结和归纳,给出具体明确的需求描述,最终结果表现为对报表扥西的支持;潜在的分析需求是指客户事先并不能明确说明,由专业人员对企业的历史数据进行规律探索、知识发现的需求。作为本技术方案的进一步改进,所述 S1 中,概念分析的具体方法包括如下步骤: S1.1、了解企业的业务流程及其在数据上的反应,包括但不限于企业各项业务涉及的各类数据、表格、分类规则等; S1.2、了解企业原有的 IT 系统及其所拥有的数据,明确数据流和业务流的对应关系; S1.3、按照数据仓库的终端用户类别,分别了解终端用户的分析需求。其中,所述 S1.2 中,明确数据流和业务流的对应关系使理解源数据库的基础,也是数据准确性和一致性的保证。其中,所述 S1.3 中,通常数据仓库的终端用户可以分为报表用户和专业分析用户两类;通常报表用户的需求非常明确,可以精确到提供报表样张;二专业分析用户的需求比较模糊。作为本技术方案的进一步改进,所述 S2 中,逻辑设计的具体方法包括如下步骤: S2.1、应用系统功能设计:包括但不限于系统功能的设计和规划、具体功能的输入输出界面的设计、具体输入输出界面的实现逻辑等; S2.2、数据仓库设计:包括但不限于数据仓库存储结构的设计、维度建模、数据粒度的确定、源数据表规划等; S2.3、ETL 设计:系统涉及人员根据对原有系统中数据的理解和数据仓库的设计,确定数据抽取的逻辑和更新频率,分析系统根据设定的逻辑从数据仓库中选取需要的数据,进行必要的聚集以建立针对特定分析应用的数据集市等。其中,所述 S2.3 中,ETL 是指数据抽取、转换、清洗、装载的过程,ETL 是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。作为本技术方案的进一步改进,所述 S3 中,物理实现的具体方法包括如下步骤: S3.1、根据项目的需求和工具软件的特性对开发工具和平台进行选择; S3.2、开发人员通过开发工具和平台,研发针对特定应用的程序以实现数据仓库的主要项目。其中,所述 S3.1 中,在满足需求的多个工具软件之间进行挑选时可以参考的原则包括但不限于:尽量选择开发人员所熟悉的软件,尽量选择兼容性较高的软件,数据仓库的开发工具最好具有较强的分析处理能力等。作为本技术方案的进一步改进,所述 S3.2 中,数据仓库的主要项目及程序主要分为五大类,包括: ETL 程序:用于完成从数据源将数据读入数据仓库的过程:数据处理程序:用于完成必要的数据聚集和建模的过程;数据接口程序:用于为其他系统或后续应用访问数据仓库提供接口:应用程序:用于完成详细设计中的现有应用功能;元数据管理程序:用于完成元数
据的生成和访问功能。作为本技术方案的进一步改进,所述 S4 中,数据仓库质量控制的具体方法包括如下步骤: S4.1、根据用户的身份,将数据仓库质量划分为设计与管理质量、应用质量、数据的使用质量及数据质量四大类; 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种敏捷数据仓库架构,其特征在于:包括: 数据源:主要包括传统数据库 DB 和日志集群文件两种来源,用于获取操 作型与应用相关的业务数据: 存储层:主要通过包括计算引擎、开发工具和平台等数据仓库工具,用于 解决 ETL 问题,实现数据稳定正确的传输,并提供可靠的存储计算环境; 数据仓库:主要包括数仓模型和数仓工具两个项目,数仓模型用于解决数 据可用的问题,数仓工具用于解决数据易用的问题; 分析工具:主要通过计息查询工具、多维分析工具、搜索分析工具、报表 系统等工具进行数据分析,用于解决各种不同角色用户如何使用数据仓库的 问题; 应用层:用于根据用户的需求分析结果,将构建好的数据仓库架构应用于 不同的业务场景及用户。2. 根据权利要求 1 所述的敏捷数据仓库架构,其特征在于:所述数据仓 库中: 数仓模型主要包括近源数据层、数据宽表和基础指标层;近源数据层为封 装中间层,用于合并不同业务数据、屏蔽脏数据、合并冗余字段等,近源数据 层基本上与数据源保持一致的字段结构,具体为:数据源中的传统数据库 DB 按照业务的结构导入数据仓库,日志文件根据字段映射成 Hive 表至数据仓库; 数据宽表用于从近源数据层中提取足够常用的字段;基础指标层用于从宽表 中提取直观的基础指标表; 数仓工具主要包括但不限于数据字典、数据地图、权限管理等。3. 根据权利要求 2 所述的敏捷数据仓库架构,其特征在于:所述近源数 据层主要包括调和数据层、衍生数据层、全局数据仓库及元数据,具体为: 调和数据层:属于不同数据源的数据形成调和层,并将所有数据放入全局 数据仓库中进行一致性的调和处理; 权利要求书 2 衍生数据层:从调和数据经过过滤和概括进入各数据集市用于决策支持, 形成衍生数据,数据集市作用为管理用于决策支持的用于各个部门的数据、模 式和应用; 全局数据仓库:用于管理与调和数据有关的数据、模式和应用; 元数据:用于提供关于数据源、模式和交互的有关信息。4. 一种敏捷数据仓库架构的构建方法,该方法用于构建权利要求 3 所述 的敏捷数据仓库架构,其特征在于:包括如下步骤: S1、概念分析:以数据为中心进行分析需求,按照明确/潜在的分析需求 来设计数据的存储和管理方式; S2、逻辑设计:根据企业的业务模型和数据仓库的基本理论,对源系统中 的数据进行重组设计,完成数据仓库的设计工作; S3、物理实现:开发人员借助一定的工具或程序语言,从源数据库中抽取 数据,实现上述逻辑设计所描述的数据仓库和客户端数据库的任务; S4、数据仓库质量控制:根据用户划分数据仓库的质量类别,分别加强并 优化数据仓库质量的控制。5. 根据权利要求 4 所述的敏捷数据仓库架构的构建方法,其特征在于: 所述 S1 中,概念分析的具体方法包括如下步骤: S1.1、了解企业的业务流程及其在数据上的反应,包括但不限于企业各项 业务涉及的各类数据、表格、分类规则等; S1.2、了解企业原有的 IT 系统及其所拥有的数据,明确数据流和业务流 的对应关系; S1...

【专利技术属性】
技术研发人员:王洋吴振刚丁毅
申请(专利权)人:中建材信云智联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1