一种基于Hive的高校数据仓库分层设计方法技术

技术编号:20074902 阅读:72 留言:0更新日期:2019-01-15 00:35
本发明专利技术涉及一种基于Hive的高校数据仓库分层设计方法,包括:获取数据,使用ETL工具进行数据抽取,将获取的结构化、非结构化数据同步到Hive平台上;使用Hive构建数据仓库,将数据仓库分为ODS数据存储层、DWD数据明细层、DW数据汇总层、DWA数据应用层;数据仓库建模,确定分析主题,使用维度建模法,使用最小粒度设计维表,设计事实表;设计事实表,分为事实表‑非分区表,和分区事实表。本发明专利技术提出的数据仓库分层设计相比其他大数据仓库设计三层分析处理更灵活,可扩展性强,后期可根据业务需求增加相应的分析主题,将Hive大数据平台优点和数据仓库星型模型设计方法高效地结合起来。

Hive-based Hierarchical Design Method for University Data Warehouse

The invention relates to a Hive-based hierarchical design method for university data warehouse, which includes: acquiring data, extracting data using ETL tools, synchronizing structured and unstructured data acquired to Hive platform; building data warehouse using using Hive, dividing data warehouse into ODS data storage layer, DWD data detail layer, DW data aggregation layer and DWA data application layer; Modeling, determining analysis topics, using dimension modeling method, using minimum granularity design dimension table, design fact table; design fact table, divided into fact table, non-partitioned table, and partitioned fact table. The hierarchical design of data warehouse proposed by the present invention is more flexible and extensible than the three-tier analysis and processing of other large data warehouse designs. In the later stage, the corresponding analysis topics can be added according to the business requirements, and the advantages of Hive large data platform and the star model design method of data warehouse can be effectively combined.

【技术实现步骤摘要】
一种基于Hive的高校数据仓库分层设计方法
本专利技术属于数据库
,具体涉及一种基于Hive的高校数据仓库分层设计方法。
技术介绍
随着高校信息系统建设的日趋成熟以及管理要求的不断提升,可以引入数据仓库技术对高校信息系统数据进行结构重组,针对高校的特点和发展需求,按更有利于决策分析的角度去设计,在数据仓库之上进行数据挖掘等分析,让这些宝贵的数据资源实现真正的信息价值,提高对管理信息数据的利用率,进而提升高校管理水平。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hadoop是一个由Apache基金会所开发的分布式系统基础架构。数据仓库(DW,DataWarehouse)是一个面向主题的、集成的、随时间变化的、相对稳定的数据集合,用于支持管理决策。通过构建数据仓库,职能部门可对现有系统的数据进行有效的集成并加以重组,建立面向联机分析处理的系统,以满足学校对数据的准确掌握、统计分析上报需求,并为数据挖掘和决策支持提供基础。传统数据仓库主要分为ODS数据存储层(本文档来自技高网...

【技术保护点】
1.一种基于Hive的高校数据仓库分层设计方法,其特征在于,包括以下步骤:步骤1,获取数据,从学工系统、教务系统、一卡通系统、资助系统、上网行为管理系统、校园无线系统、人事系统、考勤系统、门禁系统、宿舍管理系统、财务系统,获取结构化与非结构化的数据;步骤2,使用ETL工具进行数据抽取,将获取的结构化、非结构化数据同步到Hive平台上;步骤3,使用Hive构造数据仓库,将数据仓库分为ODS数据存储层、DWD数据明细层、DW数据汇总层、DWA数据应用层;其中ODS数据存储层为数据缓存层,用于存放获取的原始数据,保留一个固定长度时间,不对数据做任何处理;其中DWD数据明细层用于对ODS数据存储层的数...

【技术特征摘要】
1.一种基于Hive的高校数据仓库分层设计方法,其特征在于,包括以下步骤:步骤1,获取数据,从学工系统、教务系统、一卡通系统、资助系统、上网行为管理系统、校园无线系统、人事系统、考勤系统、门禁系统、宿舍管理系统、财务系统,获取结构化与非结构化的数据;步骤2,使用ETL工具进行数据抽取,将获取的结构化、非结构化数据同步到Hive平台上;步骤3,使用Hive构造数据仓库,将数据仓库分为ODS数据存储层、DWD数据明细层、DW数据汇总层、DWA数据应用层;其中ODS数据存储层为数据缓存层,用于存放获取的原始数据,保留一个固定长度时间,不对数据做任何处理;其中DWD数据明细层用于对ODS数据存储层的数据进行清洗、转码、增量转全量,对表名字与字段名进行统一规范后存储;其中DW数据汇总层用于面向主题组织数据,按业务需要构造多维模型数据,进行相关主题域内的数据整合、相关业务的拆分、汇总;其中DWA数据应用层用于根据业务应用需要构造多维模型数据,所得数据直接用于分析展现,该层也承担专题类数据模型的建设;步骤4,数据仓库建模,确定分析主题,使用维度建模法,使用最小粒度设计维表,设计事实表;设计事实表,分为事实表-非分区表,和分区事实表。2.根据权利要求1所述的一种基于Hive的高校数据仓库分层设计方法,其特征在于,步骤2具体包括以下步骤:步骤2.1,ETL工具选择开源Kettle或者Sqoop;步骤2.2,抽取方式的选择,针对数据量少,改动量大的数据源采用全量同步抽取,对数据量大,改动小的数据源采取增量同步抽取;基于源表日期时间戳或者更新时间作为分区字段,按照时间分区进行增量抽取,若没有时间类型字段则采用全量抽取;步骤2.3,对数据进行规范化、验证、清洗;步骤2.4,记录ETL抽取的日志;步骤2.5,ETL工具发出异常通知时,使用ETL内置工具捕捉后发送邮件给维护人员。3.根据权利...

【专利技术属性】
技术研发人员:杨连群
申请(专利权)人:北京桃花岛信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1