一种缓慢变化维表的分区数据处理方法与使用方法技术

技术编号:34281612 阅读:99 留言:0更新日期:2022-07-24 18:27
本发明专利技术涉及一种缓慢变化维表的分区数据处理方法与使用方法,属于数据仓库中的ETL数据处理技术领域。首先,按照自然月的时间范围在数据库建立一个分区数据库表,并将缓慢变化维表的开始时间戳指定为分区键;在数据仓库有新数据需要入仓且处理时间节点为月初时,使用分区缓慢变化维表算法,对接入前缓慢变化维表中开链的全量数据做闭链处理,再计算新的入仓数据,且对新接入数据做开链处理;使用上述方法处理的分区缓慢变化维表时,将开始时间戳放在查询目标日期所在的月初与目标日期之间,此时所要查询的数据被锁定在了同一个分区内,极大提高缓慢变化维表的查询效率。本发明专利技术在保留缓慢变化维表的特性的同时,还能提高查询效率与查询的稳定性。与查询的稳定性。与查询的稳定性。

A partition data processing method and application method of slowly changing dimension table

【技术实现步骤摘要】
一种缓慢变化维表的分区数据处理方法与使用方法


[0001]本专利技术涉及一种缓慢变化维表的分区数据处理方法与使用方法,属于数据处理领域,特别是数据仓库中的ETL算法领域。

技术介绍

[0002]数据仓库技术开最早是于20世纪80年代中期由Bill Inmon(比尔
·
恩门)提出的。数据仓库不是一个现成的产品,而是一种数据应用的动态过程。
[0003]数据的ETL过程是建立数据仓库建设的第一个步骤,是数据仓库的基础工作,是数据仓库后续操作的准备工作。ETL是在数据调度时,三个步骤Extract,Transform,Load的英文首字母缩写,也就是抽取、转换、装载的简称,即将散落在各个系统的业务数据依次抽取、转换、装载到数据仓库的过程。
[0004]缓慢变化维表与快照表,是数据仓库中最常用的两种存储方式,也是ETL工作中转换过程的两种算法。其中缓慢变化维(Slowly Changing Dimensions,SCD)是数据仓库中常用的算法之一,主要用来存储某一类对象变化的历史信息,从该对象的起始至当前时间点,任何时本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种缓慢变化维表的分区数据处理方法,其特征在于:包括如下步骤:1)创建按自然月时间范围分区的数据库表,并将缓慢变化维表的开始时间戳指定为分区键;2)准备两个与目标缓慢变化维表具有相似表结构的数据库表,用于分区算法中的临时数据存储;3)使用缓慢变化维分区算法,实现数据入仓时的分区处理;4)定期对具有分区的缓慢变化维表的分区进行分区维护。2.根据权利要求1所述的一种缓慢变化维表的分区数据处理方法,其特征在于:缓慢变化维表中同一对象属性的变化通过两个时间戳,即开始时间、结束时间来标记,且缓慢变化维表具有能够标识唯一对象的业务主键。3.根据权利要求2所述的一种缓慢变化维表的分区数据处理方法,其特征在于:所述步骤1):在缓慢变化维表中存储数据之前,创建具有时间范围分区的数据库表,具体包括:分区主键为缓慢变化维表中预设的开始时间戳字段;表中每个分区的时间下限为每个自然月的月初,分区的时间上限为每个自然月的月末。4.根据权利要求3所述的一种缓慢变化维表的分区数据处理方法,其特征在于:所述步骤2):准备两个与目标缓慢变化维表具有相似表结构的数据库表,用于分区算法中的临时数据存储,具体包括:临时表1,记为TEMP1,用于存储数据仓库中从上游数据库中的源数据,包含一个数据日期字段,用于存储数据采集的日期,其余表结构为目标表中除开始时间戳与结束时间戳以外的所有字段;临时表2,记为TEMP2,表结构与临时表1相同,用于存储分区算法中的对比结果数据。5.根据权利4所述的一种缓慢变化维表的分区数据处理方法,其特征在于:所述步骤3):...

【专利技术属性】
技术研发人员:徐丽娜赵冲
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1