一种数据合并方法及系统技术方案

技术编号:20160344 阅读:39 留言:0更新日期:2019-01-19 00:13
本申请公开了一种数据合并方法及系统,方法包括:对数据进行压缩处理,基于压缩后表的数据量大小设置分区个数,通过对增量数据层和全量数据层的主键哈希,按照分区个数取模,将增量数据和全量数据分别拆分到不同的临时目录,对增量数据层和全量数据层对应分区下的文件执行相应的合并操作,将合并操作结果输出到临时目录和全量数据目录。本申请在大数据的情景下,能够高效的实现数据的合并。

【技术实现步骤摘要】
一种数据合并方法及系统
本申请涉及数据处理
,尤其涉及一种数据合并方法及系统。
技术介绍
大数据应用下,尤其银行系统有些时点类的表(如储蓄表)量级很大(约数百G),每日增量数据也在数十G的量级,批量加工过程中,为了获取每日最新的全量数据,就需要将增量数据表和全量数据表做合并获取最新的全量数据。现有的数据合并基本都是基于oracle(关系数据库管理系统)等数据库的一种sql(StructuredQueryLanguage,结构化查询语言)语句,用来合并update语句和insert语句,但是大数据应用下,在HDFS(Hadoop分布式文件系统)集群上,基于hive(hive是基于Hadoop的一个数据仓库工具)存储如何进行数据合并,hive本身没有成熟的数据合并技术,目前采用的数据合并方法在数据量很大时效率又很低,成为批量加工的瓶颈。因此,实现在大数据的情景下对数据进行合并,且提高数据合并的效率,是一项亟待解决的问题。
技术实现思路
有鉴于此,本申请提供了一种数据合并方法,在大数据的情景下,能够高效的实现数据的合并。本申请提供了一种数据合并方法,所述方法包括:对数据进行压缩处理;基于本文档来自技高网...

【技术保护点】
1.一种数据合并方法,其特征在于,所述方法包括:对数据进行压缩处理;基于压缩后表的数据量大小设置分区个数;通过对增量数据层和全量数据层的主键哈希,按照分区个数取模,将增量数据和全量数据分别拆分到不同的临时目录;对增量数据层和全量数据层对应分区下的文件执行相应的合并操作;将合并操作结果输出到临时目录和全量数据目录。

【技术特征摘要】
1.一种数据合并方法,其特征在于,所述方法包括:对数据进行压缩处理;基于压缩后表的数据量大小设置分区个数;通过对增量数据层和全量数据层的主键哈希,按照分区个数取模,将增量数据和全量数据分别拆分到不同的临时目录;对增量数据层和全量数据层对应分区下的文件执行相应的合并操作;将合并操作结果输出到临时目录和全量数据目录。2.根据权利要求1所述的方法,其特征在于,所述对数据进行压缩处理包括:采用ORC格式对数据进行压缩处理。3.根据权利要求1所述的方法,其特征在于,所述对增量数据层和全量数据层对应分区下的文件执行相应的合并操作包括:增量数据层T+1日对应的临时目录下每个分区下和全量数据层T日对应临时目录下每个分区下,相同主键的,取增量数据层临时目录对应的记录。4.根据权利要求1所述的方法,其特征在于,所述对增量数据层和全量数据层对应分区下的文件执行相应的合并操作包括:增量数据层T+1日对应的临时目录下每个分区下和全量数据层T日对应临时目录下每个分区下,增量数据层有记录,全量数据层无记录的,取增量数据层临时目录下的记录。5.根据权利要求1所述的方法,其特征在于,所述对增量数据层和全量数据层对应分区下的文件执行相应的合并操作包括:增量数据层T+1日对应的临时目录下每个分区下和全量数据层T日对应临时目录下每个分区下,增量数据层无记录,全量数据层有记录的...

【专利技术属性】
技术研发人员:李英军余春祖王娟娟
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1