数据仓库类批量作业并行处理方法和系统技术方案

技术编号:39146334 阅读:14 留言:0更新日期:2023-10-23 14:56
本发明专利技术提供了一种数据仓库类批量作业并行处理方法和系统,包括:在第一个业务日期的每个加工作业ETL后,增加对应的切片作业SLC形成日切表;在第二个业务日期的加工作业ETL产生的数据直接插入对应日期后缀的所述日切表中,完成对每个作业的日切。本发明专利技术能确保大规模批量作业多日并行,有效提高数据服务的稳定性和时效性,并避免数据空间的冗余。并避免数据空间的冗余。并避免数据空间的冗余。

【技术实现步骤摘要】
数据仓库类批量作业并行处理方法和系统


[0001]本专利技术涉及数据处理
,具体地,涉及数据仓库类批量作业并行处理方法和系统方案。尤其是一种解决数据仓库类大规模批量作业多日并行的技术方案。

技术介绍

[0002]在主流商业银行领域,数据仓库是企业中重要大规模数据处理系统,提供对海量数据的并行处理能力。与企业级数据仓库的交互是通过业务系统卸载数据文件,并传输至数据仓库。数据仓库从接收数据、加载数据入仓至完成数据处理并传输,大规模批量作业的整体作业量少则5000

6000个,多则20000个以上,且作业之间的依赖复杂度高,单一作业的耦合关系多则有上百个。
[0003]专利文献CN111369333A提供了一种分布式系统日切协同处理方法及系统,包括:通过通用网关接收主机服务器的日切完成通知,形成平台服务器日切控制信息并传输至平台日切控制器;通过平台日切控制器接收平台服务器日切控制信息,形成平台服务器日切指令并传输至分布式协同服务器;通过分布式协同服务器将平台服务器日切指令分别传输至各平台服务器以使各平台服务器完成日切。
[0004]但是当前业内普遍采用日切方案,即当前业务日期所有作业全部完成后切换至下一个业务日期。由于作业系统涉及源系统重多,单个源数据晚到或由于问题数据导致部分作业异常等情况实属常见。该类情况会导致第二天大批量作业延迟或无法运行,进而导致整个系统无法按时或无法正常提供数据服务。

技术实现思路

[0005]针对现有技术中的缺陷,本专利技术的目的是提供一种数据仓库类批量作业并行处理方法和系统。
[0006]根据本专利技术提供的一种数据仓库类批量作业并行处理方法,包括:
[0007]在第一个业务日期的每个加工作业ETL后,增加对应的切片作业SLC形成日切表;
[0008]在第二个业务日期的加工作业ETL产生的数据直接插入对应日期后缀的所述日切表中,完成对每个作业的日切。
[0009]优选地,所述SLC切片作业是指复制一张与上一天ETL加工作业结果表的表结构一致的表,并以数据日期做为后缀,形成日切表,同时根据ETL加工作业对应的数据加工算法,判断是否保留数据。
[0010]优选地,ETL加工作业依赖本作业对应的SLC切片作业,下一个业务日期的ETL加工作业运行需前一个业务日期的SLC切片作业完成。
[0011]优选地,每个FLD加载作业依赖各自的CHK检查作业;每个ETL加工作业依赖一个或多个FLD加载作业或多个别的ETL加工作业;所述ETL加工作业含模型、中间层;每个SLC切片作业依赖各自的ETL加工作业,以产生下一个业务日期的结果表;每个EXP导出作业依赖至少一个FLD加载作业或ETL加工作业;每个FTP上传作业依赖一个EXP导出作业;ETL加工作业
和EXP导出作业允许出现一对多,即一个ETL加工作业或EXP导出作业的完成必须先全部完成其所依赖的多个前置作业。
[0012]优选地,对数据仓库不同的数据加工算法的数据表设置日切表。
[0013]优选地,数据仓库的数据加工算法包括:
[0014]数据加工算法I:接受增量数据,追加选定字段的记录追加至数据表末尾,并带有审计字段;
[0015]数据加工算法F1:每次作业运行的时候删除当前数据表中所有数据,随后将当前业务日期运算结果保留下,不带有审计字段;
[0016]数据加工算法F2:接受增量数据、全量数据,根据主键更新数据表的中的记录;
[0017]数据加工算法F3、F5:分为为全量历史拉链算法、普通历史拉链算法,根据主键,对除主键外数据有更新的情况下,把原有记录的结束日期end_date更新当前业务日期的前一天,随后新增一条记录将开始日期start_date设为当前业务日期,并记录对应字段的状态值,并将结束日期end_date字段设置为代表链条不关闭的特殊日期DATE_X,保存历史数据且带有审计字段;
[0018]数据加工算法Custom:保留一时间段内数据,删除除了该时间段以外的数据。
[0019]优选地,数据加工算法I对应的日切表带日期后缀,保留历史数据;
[0020]数据加工算法F1对应的日切表带日期后缀,不保留历史数据;
[0021]数据加工算法F2对应的日切表带日期后缀,保留历史数据;
[0022]数据加工算法F3、F5对应的日切表均带日期后缀,保留历史数据;
[0023]数据加工算法Custom对应的日切表带日期后缀,保留历史数据。
[0024]优选地,不同的算法,采用不同的数据存储方式,对不同频度的数据建立存储空间及相对应的存储结构将设定年前的数据作为冷数据;对冷数据进行数据下线进入冷数据库以行压缩的方式进行存储;将设定年内的数据作为热数据;对于热数据,只对使用数据量超过设定数据量的表的加工作业ETL进行反向依赖,且只需要第一层加工作业ETL的反向依赖,并在对第一层的表设置日切表。
[0025]根据本专利技术提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现所述的数据仓库类批量作业并行处理方法的步骤。
[0026]根据本专利技术提供的一种电子设备系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现所述的数据仓库类批量作业并行处理方法的步骤。
[0027]与现有技术相比,本专利技术具有如下的有益效果:
[0028]1、本专利技术解决了现有技术日切造成的无法按时提供数据服务和问题数据的困境。本专利技术提供的方案包括:对不同算法的数据表设置日切表,对不同频度的数据建立存储空间及相对应的存储结构;配置日切作业依赖同时满足日切与非日切作业的正常运行。从而本专利技术能确保大规模批量作业多日并行,有效提高数据服务的稳定性和时效性,并避免数据空间的冗余。
[0029]2、传统数据仓库批量数据处理中,作业之间相互依赖,并且相互反依赖,作业间耦合度非常高。其中任何一环的异常和延迟都会导致整个数据仓库提供服务的能力减低或者异常。本专利技术整体解决了作业间的高耦合,重塑数据仓库的作业方案,去除反向依赖。使得
系统可以摆脱日切,支持多日并行的批量数据加工,避免系统整体数据服务受到单一上游数据供应延迟和异常的影响。但单一上游数据供应延迟和异常如不能在次日解决,则反向依赖机制会导致影响逐日扩散,并在数日后影响到系统的整体数据服务。由此,本专利技术进一步提出了日切作业方案,解决了反向依赖机制引发的影响逐日扩散的缺陷。保证了数据仓库这类企业级别的数据集成类系统,在因上游系统数量众多而无法获得稳定供应的数据来源的情况下,仍可实现大规模批量作业的多日并行,保证系统数据服务的持续对外提供。
[0030]3、在数据仓库的批量数据加工中,加工算法多样且存储数据的方式繁复。本专利技术总结适用于数据仓库日常加工的算法,对这些算法设计对应的切片方案。基于这些切片方案,在同一个作业依赖环境中,所有作业和表都能完成并行和日切本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据仓库类批量作业并行处理方法,其特征在于,包括:在第一个业务日期的每个加工作业ETL后,增加对应的切片作业SLC形成日切表;在第二个业务日期的加工作业ETL产生的数据直接插入对应日期后缀的所述日切表中,完成对每个作业的日切。2.根据权利要求2所述的数据仓库类批量作业并行处理方法,其特征在于,所述SLC切片作业是指,复制一张与上一天ETL加工作业结果表的表结构一致的表,并以数据日期做为后缀,形成日切表,同时根据ETL加工作业对应的数据加工算法,判断是否保留数据。3.根据权利要求2所述的数据仓库类批量作业并行处理方法,其特征在于,ETL加工作业依赖本作业对应的SLC切片作业,下一个业务日期的ETL加工作业运行需前一个业务日期的SLC切片作业完成。4.根据权利要求3所述的数据仓库类批量作业并行处理方法,其特征在于,每个FLD加载作业依赖各自的CHK检查作业;每个ETL加工作业依赖一个或多个FLD加载作业或多个别的ETL加工作业;所述ETL加工作业含模型、中间层;每个SLC切片作业依赖各自的ETL加工作业,以产生下一个业务日期的结果表;每个EXP导出作业依赖至少一个FLD加载作业或ETL加工作业;每个FTP上传作业依赖一个EXP导出作业;ETL加工作业和EXP导出作业允许出现一对多,即一个ETL加工作业或EXP导出作业的完成必须先全部完成其所依赖的多个前置作业。5.根据权利要求1所述的数据仓库类批量作业并行处理方法,其特征在于,对数据仓库不同的数据加工算法的数据表设置日切表。6.根据权利要求5所述的数据仓库类批量作业并行处理方法,其特征在于,数据仓库的数据加工算法包括:数据加工算法I:接受增量数据,追加选定字段的记录追加至数据表末尾,并带有审计字段;数据加工算法F1:每次作业运行的时候删除当前数据表中所有数据,随后将当前业务日期运算结果保留下,不带有审计字段;数据加工算法F2:接受增量数据、全...

【专利技术属性】
技术研发人员:赵昊宇彭广亮陈瑾圆周全冯明亮
申请(专利权)人:兴业数字金融服务上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1