一种用于数据集市和数据仓库的数据建模方法技术

技术编号:26730530 阅读:14 留言:0更新日期:2020-12-15 14:31
本发明专利技术涉及数据集市及数据仓库的技术领域,具体为一种用于数据集市和数据仓库的数据建模方法,包括以下步骤:搭建总线架构步骤:抽取业务系统主数据进行自动整合,获得公共的一致性维度,构建标准总线接口;数据处理步骤:对业务数据表进行分类,根据分类结果自动筛选数据抽取方式抽取业务数据表;模型整合步骤:通过反三范式对业务数据表进行组合、拆分形成事实表和多个维度表,根据事实表和多个维度表构建以事实表为主的维度模型。采用本方案能够解决现有技术中由于各独立型数据集市由各用户或部门独立构建,其数据架构互相独立,无法复用,容易造成数据孤岛,同时也无法保证企业数据的规范性、一致性和准确性的技术问题。

【技术实现步骤摘要】
一种用于数据集市和数据仓库的数据建模方法
本专利技术涉及数据集市及数据仓库的
,具体为一种用于数据集市和数据仓库的数据建模方法。
技术介绍
数据仓库是指具有面向主题、集成性、稳定性和时变性等特征的数据集合,其主要是为决策分析提供数据支持。数据集市又称数据市场,是指满足特定部门或用户的需求,按照多维方式进行存储的数据集合,其数据可从企业级的数据仓库中抽取。目前的数据集市可分为两种:一是从属型数据集市,自顶向下,以数据源为导向,其数据流向为数据源-数据仓库-数据集市,例如以业务系统的数据作为数据源,业务系统的数据通过清洗、加载、整合形成数据仓库,根据业务需求或部门需求从数据仓库中抽取数据构建数据集市,此时,数据集市为数据仓库的子集。二是独立型数据集市,自底向上,以业务需求为导向,其数据流向为数据源-数据集市-数据仓库,例如以业务系统的数据作为数据源,根据业务需求或部门需求从数据源抽取数据构建不同主题的数据集市,多个数据集市通过一系列公共维度递增构建数据仓库。从属型数据集市主要采用关系建模法构建数据模型,例如第三范式,这种构建方式需要从全局考虑,对企业的业务系统全面进行梳理,并划分主题,构建符合第三范式的实体关系,从而构建数据规范性、数据一致性较好的数据模型,能够有效屏蔽上游业务系统的变化对下游应用的影响。但是该数据模型中数据的关联性较强,缺乏灵活性,响应性能易受影响,同时由于前期所需数据量较为冗杂,实施周期非常长,建设成本较大,同时对建模人员的要求非常高。而独立型数据集市主要采用维度建模法构建数据模型,其数据模型主要包括星型模型和雪花模型,这种构建方式以分析决策的需求出发,例如从业务需求或部门需求出发,根据需求获取数据构建事实表和维度表,通过一个事实表和多个维度表构建宽表,从而实现OLAP快速分析,适应大规模复杂查询下的性能快速响应。但是独立型数据集市直接从数据源抽取数据,存在大量的数据预处理工作,同时由于各独立型数据集市由各用户或部门独立构建,其数据架构互相独立,无法复用,容易造成数据孤岛,也无法保证企业数据的规范性、一致性和准确性。
技术实现思路
本专利技术意在提供一种用于数据集市和数据仓库的数据建模方法,以解决现有技术中由于各独立型数据集市由各用户或部门独立构建,其数据架构互相独立,无法复用,容易造成数据孤岛,同时也无法保证企业数据的规范性、一致性和准确性的技术问题。本专利技术提供如下基础方案:一种用于数据集市和数据仓库的数据建模方法,包括以下步骤:搭建总线架构步骤:根据预设的数据规范和数据标准进行自动整合,整合为公共的一致性维度作为主数据;构建标准总线接口,以实现各数据模型与各数据集市之间的数据交互;系统分析步骤:对加载业务数据的业务系统进行自动分析,获取业务系统的业务流程以及业务数据流向,并根据业务流程和业务数据流向生成数据结果表,对数据结果表的表结构进行自动分析,并设定表结构中的主键字段;数据处理步骤:数据平台包括技术缓冲层、偏源模型层和整合模型层,获取业务系统的业务数据传输到数据平台,通过加载脚本将业务数据加载到技术缓冲层;业务数据包括多个业务数据表,对技术缓冲层加载的业务数据表进行分类,根据分类结果自动筛选数据抽取方式和加载频率,并根据数据抽取方式和加载频率将对应的业务数据表抽取到偏源模型层;模型整合步骤:抽取偏源模型层的业务数据表到整合模型层,通过反三范式对业务数据表进行组合、拆分形成不同的事实表,以及和事实表对应的多个维度表,根据事实表和对应的多个维度表构建以事实表为主的维度模型。名词说明:数据规范和数据标准为定义的数据上的规范和标准;主数据为各业务数据中的通用数据,又称为共性数据;标准总线接口为定义的各数据模型与各数据集市之间进行数据交互的接口;业务系统为企业中各业务部门使用的智能系统;业务流程为对应业务系统下的所有流程。基础方案的有益效果:由于各业务部门的业务各不相同,因此各业务系统获取到的业务数据也各不相同,搭建总线架构步骤的设置,通过整合获取一致性维度作为主数据,建立各业务数据的关联,通过数据规范和数据标准的设置,有效保证导入数据平台的数据规范性,同时标准总线接口的设置,使得各业务系统下的业务数据形成的数据集市插拔式的组合为企业级的数据仓库。技术缓冲层的设置,对加载的业务数据进行存储,确保加载到技术缓冲层的业务数据与业务系统传输的业务数据一致,从而保障数据的一致性。偏源模型层的设置,对所有的业务数据进行保存,便于追溯,同时便于获取业务数据的历史变化,保障数据历史变化的完整性。整合模型层的设置,抽取偏源模型层的业务数据进行组合、拆分获得事实表和维度表,通过事实表和维度表构建维度模型。进一步,还包括共性加工步骤:数据平台还包括共性加工层,根据预设的共性需求从偏源模型层抽取业务数据,并加载至共性加工层,对抽取的业务数据进行整合自动生成共性基础表,并对共性基础表进行存储。名词说明:共性需求企业中各业务系统均需要调用的基础信息的需求。有益效果:直接调用共性基础表进行使用,通过共享共性基础表,以使各业务系统能够共享数据处理的开发资源,减少重复开发,便于业务系统快速的展开决策分析。进一步,还包括应用集市步骤:数据平台还包括应用集市层,根据预设的应用需求定期从偏源模型层抽取业务数据,并加载至应用集市层,根据抽取的业务数据进行数据分析计算生成应用分析结果。名词说明:应用需求为企业中各业务系统使用频率较高的应用分析的需求。有益效果:通过应用分析结果,掌握企业客户的相关信息以及企业的营销策略是否有效。直接调用定期生成的应用分析结果,提高快速响应性能,快速满足业务分析需求。进一步,获取业务系统的业务数据传输到数据平台具体包括以下步骤:数据平台从业务系统抽取业务数据或由业务系统向数据平台推送业务数据。有益效果:采用不同的业务数据获取策略,适用多种应用场景和业务需求。进一步,对技术缓冲层加载的业务数据表进行分类,根据分类结果自动筛选数据抽取方式和加载频率,具体包括以下步骤:预设表类型,表类型包括流水表和状态表,根据表类型对技术缓冲层加载的业务数据表进行分类,数据抽取方式包括全量和增量,加载频率为日加载,根据流水表自动筛选出增量的数据抽取方式,根据状态表自动筛选出全量的数据抽取方式。有益效果:不同表类型下的业务数据表其数据抽取方式不相同,对于流水表采用增量的方式对本次业务进行记录,降低容易的数据表,对于状态表采用全量的方式对所有数据进行记录,供企业了解相应的业务情况。进一步,数据处理步骤中,通过ETL将业务数据表抽取到偏源模型层。有益效果:ETL是指数据仓库技术,主要是通过数据抽取-数据加载-数据转换的流程将数据加载到数据仓库中,由于其采用数据抽取-数据加载-数据转换的流程对数据进行加载,因此又称为ELT。通过ETL实现业务数据的抽取。进一步,数据处理步骤中,通过拉链算法在保留偏源模型层的历史数据的基础上,存储抽取的业务数据表。有益效果:通过拉链算法在保证业务数据的完本文档来自技高网
...

【技术保护点】
1.一种用于数据集市和数据仓库的数据建模方法,其特征在于:包括以下步骤:/n搭建总线架构步骤:根据预设的数据规范和数据标准进行自动整合,整合为公共的一致性维度作为主数据;构建标准总线接口,以实现各数据模型与各数据集市之间的数据交互;/n系统分析步骤:对加载业务数据的业务系统进行自动分析,获取业务系统的业务流程以及业务数据流向,并根据业务流程和业务数据流向生成数据结果表,对数据结果表的表结构进行自动分析,并设定表结构中的主键字段;/n数据处理步骤:数据平台包括技术缓冲层、偏源模型层和整合模型层,获取业务系统的业务数据传输到数据平台,通过加载脚本将业务数据加载到技术缓冲层;业务数据包括多个业务数据表,对技术缓冲层加载的业务数据表进行分类,根据分类结果自动筛选数据抽取方式和加载频率,并根据数据抽取方式和加载频率将对应的业务数据表抽取到偏源模型层;/n模型整合步骤:抽取偏源模型层的业务数据表到整合模型层,通过反三范式对业务数据表进行组合、拆分形成不同的事实表,以及和事实表对应的多个维度表,根据事实表和对应的多个维度表构建以事实表为主的维度模型。/n

【技术特征摘要】
1.一种用于数据集市和数据仓库的数据建模方法,其特征在于:包括以下步骤:
搭建总线架构步骤:根据预设的数据规范和数据标准进行自动整合,整合为公共的一致性维度作为主数据;构建标准总线接口,以实现各数据模型与各数据集市之间的数据交互;
系统分析步骤:对加载业务数据的业务系统进行自动分析,获取业务系统的业务流程以及业务数据流向,并根据业务流程和业务数据流向生成数据结果表,对数据结果表的表结构进行自动分析,并设定表结构中的主键字段;
数据处理步骤:数据平台包括技术缓冲层、偏源模型层和整合模型层,获取业务系统的业务数据传输到数据平台,通过加载脚本将业务数据加载到技术缓冲层;业务数据包括多个业务数据表,对技术缓冲层加载的业务数据表进行分类,根据分类结果自动筛选数据抽取方式和加载频率,并根据数据抽取方式和加载频率将对应的业务数据表抽取到偏源模型层;
模型整合步骤:抽取偏源模型层的业务数据表到整合模型层,通过反三范式对业务数据表进行组合、拆分形成不同的事实表,以及和事实表对应的多个维度表,根据事实表和对应的多个维度表构建以事实表为主的维度模型。


2.根据权利要求1所述的用于数据集市和数据仓库的数据建模方法,其特征在于:还包括共性加工步骤:数据平台还包括共性加工层,根据预设的共性需求从偏源模型层抽取业务数据,并加载至共性加工层,对抽取的业务数据进行整合自动生成共性基础表,并对共性基础表进行存储。


3.根据权利要求1所述的用于数据集市和数据仓库的数据建模方法,其特征在于:还包括应用集市步骤:数据平台还包括应用集市层,根据预设的应用需求定期从偏源模型层抽取业务数据,并加载至应用集市层,根据抽取的业务数据进行数据分析计算生成应用分析结果。


4.根据权利要求1所述的用于数据集市和数据仓库的数据建模方法,其特征在于:获取业务系统的业务数据传输到数据...

【专利技术属性】
技术研发人员:张洪春
申请(专利权)人:重庆富民银行股份有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1