数据仓库建设方法、装置、系统、电子设备及存储介质制造方法及图纸

技术编号:31161864 阅读:24 留言:0更新日期:2021-12-04 10:31
本发明专利技术实施例涉及数据仓库技术领域,公开了一种数据仓库建设方法、装置、系统、电子设备及存储介质。该方法包括:构建数据仓库,对数据仓库进行分层;通过数据准备层获取业务系统的相关数据;通过数据明细层对数据准备层获取的增量数据进行融合;通过数据汇总层对原始全量数据进行清洗和转换,汇总聚合成数据汇总层数据;通过数据集市层将原始全量数据和数据汇总层数据进行粗粒度聚合,按照业务需求对事实进行拉宽形成宽表;通过数据应用层对原始全量数据、数据汇总层数据以及宽表进行粗粒度聚合汇总,以获取业务需要的事实数据;通过数据应用层将事实数据同步至其他服务库。实施本发明专利技术实施例,可以快速、便捷地完成数据仓库的建设。便捷地完成数据仓库的建设。便捷地完成数据仓库的建设。

【技术实现步骤摘要】
数据仓库建设方法、装置、系统、电子设备及存储介质


[0001]本专利技术涉及数据仓库
,具体涉及一种数据仓库建设方法、装置、系统、电子设备及存储介质。

技术介绍

[0002]数据仓库(Data Warehouse)是一个具有面向主题、集成、相对稳定和随着时间的推移会发生变化等特性的数据集合,建设数据仓库的目的主要是为企业制定下一步的计划提供数据支持,数据仓库中的数据面向主题,与传统数据库面向应用不同的是它主要用于数据整合和分析,是企业所有级别的人员制定方案的基本依据。数据仓库建设的主要目的是对企业长期积累下来的海量数据进行整合,从数据中找知识;运用数据知识,改良生产活动的各个环节,提高生产率,发展生产力。
[0003]制定数据路径是数据仓库建设的核心步骤,包括数据建模、ETL设计开发等。ETL(E(extract)T(transform)L(load))在构建数据仓库的过程中有着举足轻重的作用,它是一系列的操作过程,数据首先被用户从源端抽取出来,经过一系列清洗转换操作之后,例如将没有用的数据舍弃,将异构数据规则化等,最终按照用户以本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据仓库建设方法,其特征在于,包括:构建数据仓库,对所述数据仓库进行分层,在所述数据仓库的各层中分步完成对数据的ETL操作,所述数据仓库包括数据准备层、数据明细层、数据汇总层、数据集市层以及数据应用层;通过数据准备层获取业务系统的相关数据,所述数据准备层的物理模型与业务系统模型一致;通过数据明细层对数据准备层获取的增量数据进行融合,生成原始全量数据,根据需要做成拉链表;通过数据汇总层对所述原始全量数据进行清洗和转换,汇总聚合成数据汇总层数据;通过数据集市层将所述原始全量数据和数据汇总层数据进行粗粒度聚合,按照业务需求对事实进行拉宽形成宽表;通过数据应用层对所述原始全量数据、数据汇总层数据以及宽表进行粗粒度聚合汇总,以获取业务需要的事实数据;通过数据应用层将所述事实数据同步至其他服务库。2.根据权利要求1所述的数据仓库建设方法,其特征在于,通过数据准备层获取业务系统的相关数据,包括:实时采集MySQL中的binlog的日志到Kafka中,映射Kafka中的topic数据至所述数据准备层;在所述数据准备层中,对获取的业务系统的相关数据不做清洗或/和转换,所述数据准备层的表与topic数据一一对应,所述相关数据包括业务系统的源数据、日志和爬虫数据。3.根据权利要求1所述的数据仓库建设方法,其特征在于,数据明细层不对原始全量数据进行清洗或/和转换;所述拉链表记录每条信息的生命周期,且所述拉链表只记录发生变化的数据。4.根据权利要求3所述的数据仓库建设方法,其特征在于,所述拉链表的表名带有his标志,使用dwd_start_date代表每条信息的有效开始数据,使用dwd_end_date代表每条信息的有效结束数据,ygpdw_active代表每条信息在数据仓库中是否有效。5.根据权利要求1所述的数据仓库建设方法,其特征在于,为所述ETL设置SQL脚本模板,所述SQL脚本对应一个表,所述SQL脚本的脚本名即表名;在所述SQL脚本模板中,使用INPUT_TABLE表示依赖表,OUTPUT_TABLE表示结果表,每个SQL脚本的注释中带建表语句。6.根据权利要求1所述的数据仓库建设方法,其特征在于,所述数据仓库还包括DIM层,所述DIM层中的每个表包含了事实表中指定属性的相关详细...

【专利技术属性】
技术研发人员:郭照阳万友先曹杰林杰聪
申请(专利权)人:广州市易工品科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1