一种数据的批量处理方法及系统技术方案

技术编号:19934359 阅读:24 留言:0更新日期:2018-12-29 04:36
本发明专利技术公开了一种数据的批量处理方法,其特征在于,包括:当接收到对目标数据集的处理请求时,解析所述目标数据集包含的各个目标数据,确定每一个目标数据所属的集群;并行的将每一个集群中包含的各个目标数据进行切分得到各个切片数据集;确定所述各个切片数据集中的每一个切片数据所属的表和数据库;对每一个数据库中的每一个表包含的各个切片数据进行并行处理。上述方法,将目标数据集中的目标数据通过分片的方式分配给了不同的数据库中的不同表,通过多服务器加载进行并行处理,避免了现有技术中,由于是单库单表机制和资源限制,不能通过多服务器并行加载和处理,只能通过串行的方式来完成所有数据的加载和处理流程,处理效率低的问题。

【技术实现步骤摘要】
一种数据的批量处理方法及系统
本专利技术涉及数据处理
,尤其涉及一种数据的批量处理方法及系统。
技术介绍
银行的信息技术IT(InformationTechnology)系统中通常涉及海量数据的存储与处理,每天全量或增量的数据档需要定时加载和处理,现有技术中,通过单库单表的方式集中加载和处理数据,无论数据档大小,通过调整服务器的存储空间大小,以批量方式始终往同一表里追加或更新数据。专利技术人对现有的数据的批量处理方法进行研究发现,由于是单库单表机制和资源限制,不能通过多服务器并行加载和处理,只能通过串行的方式来完成所有数据的加载和处理流程,在效率和性能上难以达到令人满意的效果。
技术实现思路
有鉴于此,本专利技术提供了一种数据的批量处理方法及系统,用以解决现有技术中由于是单库单表机制和资源限制,不能通过多服务器并行加载和处理,只能通过串行的方式来完成所有数据的加载和处理流程,在效率和性能上难以达到令人满意的效果的问题。具体方案如下:一种数据的批量处理方法,包括:当接收到对目标数据集的处理请求时,解析所述目标数据集包含的各个目标数据,确定每一个目标数据所属的集群;并行的将每一个集群中包含的各个目标数据进行切分得到各个切片数据集;确定所述各个切片数据集中的每一个切片数据所属的表和数据库,其中,每一个数据库中包含至少一个表;对每一个数据库中的每一个表包含的各个切片数据进行并行处理。上述的方法,可选的,并行的将每一个集群中包含的各个目标数据进行切分得到各个切片数据集,包括:获取与所述目标数据集对应的各个集群;解析所述各个集群中包含的各个目标数据;依据每一个目标数据的切分字段对其进行切分,得到各个切片数据;采用哈希算法并行的计算每一个切片数据的哈希值;依据每一个切片数据的哈希值进行划分得到所述各个切片数据集。上述的方法,可选的,确定所述各个切片数据集中的每一个切片数据所属的表和数据库,包括:针对每一个切片数据集,获取每一个切片数据的切片编号;在对应的预设的映射关系对照表中依据每一个切片数据的切编号查找与其对应的表和数据库,其中,所述预设的映射关系对照表存储有表,数据库和切片编号的对应关系。上述的方法,可选的,还包括:当检测到对任一个数据库的调整请求时,对与所述调整请求对应的预设关系对照表进行调整。上述的方法,可选的,对每一个数据库中的每一个表包含的各个切片数据进行并行处理,包括:针对每一个切片数据,获取与其对应的临时区分表中的临时数据和数据分区表中的存量数据;判断所述存量数据中是否存在临时数据;若否,对应的数据分区表中的存量数据进行更新。一种数据的批量处理系统,包括:解析模块,用于当接收到对目标数据集的处理请求时,解析所述目标数据集包含的各个目标数据,确定每一个目标数据所属的集群;并行切分模块,用于并行的将每一个集群中包含的各个目标数据进行切分得到各个切片数据集;确定模块,用于确定所述各个切片数据集中的每一个切片数据所属的表和数据库,其中每一个数据库中包含至少一个表;并行处理模块,用于对每一个数据库中的每一个表包含的各个切片数据进行并行处理。上述的系统,可选的,所述并行切分模块包括:第一获取单元,用于获取与所述目标数据集对应的各个集群;解析单元,用于解析所述各个集群中包含的各个目标数据;切分单元,用于依据每一个目标数据的切分字段对其进行切分,得到各个切片数据;计算单元,用于采用哈希算法并行的计算每一个切片数据的哈希值;划分单元,用于依据每一个切片数据的哈希值进行划分得到所述各个切片数据集。上述的系统,可选的,所述确定模块包括:第二获取单元,用于针对每一个切片数据集,获取每一个切片数据的切片编号;查找单元,用于在对应的预设的映射关系对照表中依据每一个切片数据的切编号查找与其对应的表和数据库,其中,所述预设的映射关系对照表存储有表,数据库和切片编号的对应关系。上述的系统,可选的,还包括:调整单元,用于当检测到对任一个数据库的调整请求时,对与所述调整请求对应的预设关系对照表进行调整。上述的系统,可选的,所述并行处理模块包括:第三获取单元,用于针对每一个切片数据,获取与其对应的临时区分表中的临时数据和数据分区表中的存量数据;判断单元,用于判断所述存量数据中是否存在临时数据;更新单元,用于若否,对应的数据分区表中的存量数据进行更新。与现有技术相比,本专利技术包括以下优点:本专利技术公开了一种数据的批量处理方法,其特征在于,包括:当接收到对目标数据集的处理请求时,解析所述目标数据集包含的各个目标数据,确定每一个目标数据所属的集群;并行的将每一个集群中包含的各个目标数据进行切分得到各个切片数据集;确定所述各个切片数据集中的每一个切片数据所属的表和数据库;对每一个数据库中的每一个表包含的各个切片数据进行并行处理。上述的处理方法,将目标数据集中的目标数据通过分片的方式分配给了不同的数据库中的不同表,通过多服务器加载进行并行处理,避免了现有技术中,由于是单库单表机制和资源限制,不能通过多服务器并行加载和处理,只能通过串行的方式来完成所有数据的加载和处理流程,处理效率低的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例公开的一种数据的批量处理方法流程图;图2为本申请实施例公开的一种数据的批量处理方法又一方法流程图;图3为本申请实施例公开的一种数据的批量处理方法又一方法流程图;图4为本申请实施例公开的一种数据的批量处理方法又一方法流程图;图5为本申请实施例公开的一种数据的批量处理方法又一方法流程图;图6为本申请实施例公开的一种数据的批量处理系统结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本专利技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本专利技术的精神或范围的情况下,在其它实施例中实现。因此,本专利技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。本专利技术公开了一种数据的批量处理方法,所述方法应用在银行系统中海量数据的存储过程中,其中,所述数据可以为余额数据,明细数据或者其它优选的数据类型,所述处理方法的执行主体可以为处理器或者控制器等,所述方法的执行流程如图1所示,包括步骤:S101、当接收到对目标数据集的处理请求时,解析所述目标数据集包含的各个目标数据,确定每一个目标数据所属的集群;本专利技术实施例中,在同一时刻或者一段时间内,银行系统中会产生各种目标数据,目标数据可以为余额数据,明细数据,交易数据等,各种目标数据组成了一个目标数据集,当接收到对所述目标数据集的处理请求时,解析所述目标数据中包含的各个目标数据,获取每本文档来自技高网...

【技术保护点】
1.一种数据的批量处理方法,其特征在于,包括:当接收到对目标数据集的处理请求时,解析所述目标数据集包含的各个目标数据,确定每一个目标数据所属的集群;并行的将每一个集群中包含的各个目标数据进行切分得到各个切片数据集;确定所述各个切片数据集中的每一个切片数据所属的表和数据库,其中,每一个数据库中包含至少一个表;对每一个数据库中的每一个表包含的各个切片数据进行并行处理。

【技术特征摘要】
1.一种数据的批量处理方法,其特征在于,包括:当接收到对目标数据集的处理请求时,解析所述目标数据集包含的各个目标数据,确定每一个目标数据所属的集群;并行的将每一个集群中包含的各个目标数据进行切分得到各个切片数据集;确定所述各个切片数据集中的每一个切片数据所属的表和数据库,其中,每一个数据库中包含至少一个表;对每一个数据库中的每一个表包含的各个切片数据进行并行处理。2.根据权利要求1所述的方法,其特征在于,并行的将每一个集群中包含的各个目标数据进行切分得到各个切片数据集,包括:获取与所述目标数据集对应的各个集群;解析所述各个集群中包含的各个目标数据;依据每一个目标数据的切分字段对其进行切分,得到各个切片数据;采用哈希算法并行的计算每一个切片数据的哈希值;依据每一个切片数据的哈希值进行划分得到所述各个切片数据集。3.根据权利要求1所述的方法,其特征在于,确定所述各个切片数据集中的每一个切片数据所属的表和数据库,包括:针对每一个切片数据集,获取每一个切片数据的切片编号;在对应的预设的映射关系对照表中依据每一个切片数据的切编号查找与其对应的表和数据库,其中,所述预设的映射关系对照表存储有表,数据库和切片编号的对应关系。4.根据权利要求3所述的方法,其特征在于,还包括:当检测到对任一个数据库的调整请求时,对与所述调整请求对应的预设关系对照表进行调整。5.根据权利要求1所述的方法,其特征在于,对每一个数据库中的每一个表包含的各个切片数据进行并行处理,包括:针对每一个切片数据,获取与其对应的临时区分表中的临时数据和数据分区表中的存量数据;判断所述存量数据中是否存在临时数据;若否,将所述临时数据插入到所述存量数量。6.一种数据的批量处理系统,其特征在于,包括:解...

【专利技术属性】
技术研发人员:陈仲宇尹涛刘新阳朱建兵
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1