一种数据拼接方法及装置制造方法及图纸

技术编号:17779907 阅读:63 留言:0更新日期:2018-04-22 08:31
本发明专利技术公开了一种数据拼接方法及装置,该方法包括:获取数据主文件和分类文件,其中数据主文件为增量数据文件,分类文件为全量数据文件;从数据主文件中抽取出与分类文件拼接的关联字段;按照第一预设规则,将关联字段与分类文件组成第一临时文件;按照第二预设规则,从第一临时文件中筛选出第二临时文件;从第二临时文件中筛选出所有分类文件记录;将数据主文件与分类文件记录进行拼接。采用本发明专利技术提供的方案,在拼接之前根据数据主文件记录,从分类文件中抽取出所有键值与数据主文件一致的记录组成第二临时文件来再跟数据主文件的记录拼接,在拼接处理时由于两个文件的键值相同,大小相同,排序和筛选IO会大大减少,从而达到提高处理效率的目的。

【技术实现步骤摘要】
一种数据拼接方法及装置
本专利技术涉及软件编程
,特别是涉及一种方法及装置。
技术介绍
随着银行业务的迅速增长,各行数据大集中是目前国内各行普遍通行的系统架构。对于这样的系统架构,各行的核心系统和其外围系统之间不会是直连的关系,因为随着后续业务的发展,各外围系统可能会不断地增加,核心系统要保持相对地稳定性,不可能不断地增加外围接口。面对这样的需求,有些银行主要是通过数据采集来满足各外围系统的数据查询需求。而在数据采集实现技术中,作为采集的前提和基础,数据排序、拆分和拼接等处理则是整个数据采集的基础性工作。其效率的高低是满足银行数据服务需求的关键。因此,亟需一种能够快速实现数据拼接的方法。
技术实现思路
为解决上述技术问题,本专利技术实施例提供了一种数据拼接方法及装置,技术方案如下:一种数据拼接方法,包括:获取数据主文件和分类文件,其中数据主文件为增量数据文件,分类文件为全量数据文件;从所述数据主文件中抽取出与所述分类文件拼接的关联字段;按照第一预设规则,将所述关联字段与所述分类文件组成第一临时文件;按照第二预设规则,从所述第一临时文件中筛选出第二临时文件;从所述第二临时文件中筛选出所有分类文件记录;将所述数据主文件与所述分类文件记录进行拼接。优选地,按照第一预设规则,将所述关联字段与所述分类文件组成第一临时文件,包括:按照将所述关联字段与所述分类文件中的关联字段位置对齐、其他位置置空的规则,将所述关联字段与所述分类文件组成第一临时文件。优选地,按照第二预设规则,从所述第一临时文件中筛选出第二临时文件,包括:从所述第一临时文件中抽取出重复键值的记录;由抽取的重复键值的记录组成所述第二临时文件。优选地,从所述第二临时文件中筛选出所有分类文件记录,包括:采用DFSORT工具从所述第二临时文件中筛选出所有分类文件记录。优选地,所述分类文件为KSDS文件。一种数据拼接装置,包括:获取单元,用于获取数据主文件和分类文件,其中,数据主文件为增量数据文件,分类文件为全量数据文件;第一抽取单元,用于从所述数据主文件中抽取出与所述分类文件拼接的关联字段;第一组成单元,用于按照第一预设规则,将所述关联字段与所述分类文件组成第一临时文件;第一筛选单元,用于按照第二预设规则,从所述第一临时文件中筛选出第二临时文件;第二筛选单元,用于从所述第二临时文件中筛选出所有分类文件记录;拼接单元,用于将所述数据主文件与所述分类文件记录进行拼接。优选地,所述第一组成单元,包括:组成子单元,用于按照将所述关联字段与所述分类文件中的关联字段位置对齐、其他位置置空的规则,将所述关联字段与所述分类文件组成第一临时文件。优选地,所述第一筛选单元,包括:第二抽取单元,用于从所述第一临时文件中抽取出重复键值的记录;第二组成单元,用于由抽取的重复键值的记录组成所述第二临时文件。优选地,所述第二筛选单元,包括:筛选子单元,用于采用DFSORT工具从所述第二临时文件中筛选出所有分类文件记录。优选地,所述分类文件为KSDS文件。传统的技术实现方案,在数据主文件表记录和分类文件记录的数量级都很大的情况下,大量的IO和处理时间会浪费在查找分类文件记录上,不能充分的利用系统资源,造成批量时间过长。而采用本专利技术实施例提供的技术方案,在拼接之前根据数据主文件记录,从分类文件中抽取出所有键值与数据主文件一致的记录组成第二临时文件来再跟数据主文件的记录拼接,在拼接处理时由于两个文件的键值相同,大小相同,排序和筛选IO会大大减少,从而达到提高处理效率的目的。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例所提供的一种数据拼接方法的一种流程示意图;图2为本专利技术实施例所提供的一种数据拼接装置的一种结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,图1为本专利技术实施例提供的一种拼接方法的一种实现流程图,所述方法包括:步骤S101、获取数据主文件和分类文件。其中数据主文件为增量数据文件,分类文件为全量数据文件。其中,全量数据就是表中所有的数据,增量数据是上次导出之后的新数据。以账号为例,若某个行所有账号与分类信息的记录总和为分类文件,则数据主文件可以为某一天改行所有动账账号的存款信息。步骤S102、从所述数据主文件中抽取出与所述分类文件拼接的关联字段。步骤S103、按照将所述关联字段与所述分类文件中的关联字段位置对齐、其他位置置空的规则,将所述关联字段与所述分类文件组成第一临时文件。其中,步骤S102及步骤S103描述的是生成第一临时文件的过程,具体地,按照分类文件的格式,从数据主文件记录中抽取出跟分类文件拼接的关联字段,按照与分类文件关联字段位置对齐,其他位置置空的规则,追加到分类文件记录的后面合并组成第一临时文件。步骤S104、从所述第一临时文件中抽取出重复键值的记录。步骤S105、由抽取的重复键值的记录组成所述第二临时文件。其中,步骤S104及步骤S105描述的是生成第二临时文件的过程,具体地,当从第一临时文件中抽取出重复键值的记录后,可以将抽取的记录复制到第二临时文件中。步骤S106、采用DFSORT工具从所述第二临时文件中筛选出所有分类文件记录。第二临时文件包含的记录由两部分组成,数据主文件的记录和分类文件的记录。用DFSORT筛选出第二临时文件中所有的分类文件记录。步骤S107、将所述数据主文件与所述分类文件记录进行拼接。将从第二临时文件中筛选出的所有分类文件记录作为一个mini的分类文件跟数据主文件做拼接形成一个所有记录都含有分类信息的新数据文件,为后续的分类处理做准备。以下以表一、表二为例具体说明本专利技术的实现:其中,表一为数据主文件,表二为分类文件,表三为第一临时文件,表四为第二临时文件,表五为从第二临时文件中筛选出所有分类文件记录,表六为将依据步骤S107得到的拼接后的文件。表一与表二的关联字段分别为表一中的字段A与表二中的字段1。表一:表三:Z0001字段1分省信息分客户信息Z0002……….U0001字段AU0002……….表四:Z000N字段1分省信息分客户信息……….U0001字段A……….表五:表六:传统的技术实现方案,在数据主文件表记录和分类文件记录的数量级都很大的情况下,大量的IO和处理时间会浪费在查找分类文件记录上,不能充分的利用系统资源,造成批量时间过长。而采用本专利技术实施例提供的技术方案,在拼接之前根据数据主文件记录,从分类文件中抽取出所有键值与数据主文件一致的记录组成第二临时文件来再跟数据主文件的记录拼接,在拼接处理时由于两个文件的键值相同,大小相同,排序和筛选IO会大大减少,从而达到提高处理效率的目的。请参阅图2,图2为本专利技术实施例提供的数据拼接装置的一种结构示意图,该本文档来自技高网...
一种数据拼接方法及装置

【技术保护点】
一种数据拼接方法,其特征在于,包括:获取数据主文件和分类文件,其中数据主文件为增量数据文件,分类文件为全量数据文件;从所述数据主文件中抽取出与所述分类文件拼接的关联字段;按照第一预设规则,将所述关联字段与所述分类文件组成第一临时文件;按照第二预设规则,从所述第一临时文件中筛选出第二临时文件;从所述第二临时文件中筛选出所有分类文件记录;将所述数据主文件与所述分类文件记录进行拼接。

【技术特征摘要】
1.一种数据拼接方法,其特征在于,包括:获取数据主文件和分类文件,其中数据主文件为增量数据文件,分类文件为全量数据文件;从所述数据主文件中抽取出与所述分类文件拼接的关联字段;按照第一预设规则,将所述关联字段与所述分类文件组成第一临时文件;按照第二预设规则,从所述第一临时文件中筛选出第二临时文件;从所述第二临时文件中筛选出所有分类文件记录;将所述数据主文件与所述分类文件记录进行拼接。2.根据权利要求1所述的方法,其特征在于,按照第一预设规则,将所述关联字段与所述分类文件组成第一临时文件,包括:按照将所述关联字段与所述分类文件中的关联字段位置对齐、其他位置置空的规则,将所述关联字段与所述分类文件组成第一临时文件。3.根据权利要求2所述的方法,其特征在于,按照第二预设规则,从所述第一临时文件中筛选出第二临时文件,包括:从所述第一临时文件中抽取出重复键值的记录;由抽取的重复键值的记录组成所述第二临时文件。4.根据权利要求3所述的方法,其特征在于,从所述第二临时文件中筛选出所有分类文件记录,包括:采用DFSORT工具从所述第二临时文件中筛选出所有分类文件记录。5.根据权利要求1-4任一项所述的方法,其特征在于,所述分类文件为KSDS文件。6.一种数据拼接装置,其特征在...

【专利技术属性】
技术研发人员:牙祖将梁绍文冯琦淇
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1