异构数据源数据同步方法及装置制造方法及图纸

技术编号:35067156 阅读:18 留言:0更新日期:2022-09-28 11:25
本发明专利技术提供了一种异构数据源数据同步方法及装置,应用于大数据技术领域,该方法包括:获得异构数据源的多个数据文件;对每个数据文件的每行数据,根据该数据文件的分隔符,获得多个数据项;对每个数据文件的每行数据,基于该行数据的目标数据项数和每个数据项的类型,对该行数据的多个数据项进行校验;在校验不通过时,对该行数据的多个数据项进行修正处理;在校验通过时或修正处理后,对每个数据文件的每行数据,根据数据项数和预设分隔符,将多个数据项拼接为目标文件的一行数据,生成多个目标文件;将多个目标文件输出至目的端。本发明专利技术可以对异构数据源的数据进行同步,成功率高。成功率高。成功率高。

【技术实现步骤摘要】
异构数据源数据同步方法及装置


[0001]本专利技术涉及大数据
,尤其涉及一种异构数据源数据同步方法及装置。

技术介绍

[0002]随着大数据处理技术在银行业的应用,银行客户数量的不断增加,业务需求的复杂化等,传统关系性数据库逐渐变成联机查询库,只进行实时的数据访问,而数据加工多在分布式数据库,如hive,其支持大数据量的数据存储加工,数据存储在hdfs(分布式文件系统)上,即一个个文件。因此异构数据源之间大量数据准确同步功能是目前系统功能必不可少的一部分。
[0003]对于异构数据库之间的数据同步目前大多会采用数据同步工具,如dataX、sqoop等,但是这些同步工具在数据同步时仅支持表的列之间采用单分隔符分割,但是诸如地址、姓名、描述等中会存在各种各样的字符,这些字符不可避免的会与分隔符重复,这样就会误判断为脏数据,导致某些数据记录同步不成功。

技术实现思路

[0004]本专利技术实施例提出一种异构数据源数据同步方法,用以对异构数据源的数据进行同步,成功率高,该方法包括:
[0005]获得异构数据源的多个数据文件;
[0006]对每个数据文件的每行数据,根据该数据文件的分隔符,获得多个数据项;
[0007]对每个数据文件的每行数据,基于该行数据的目标数据项数和每个数据项的类型,对该行数据的多个数据项进行校验;
[0008]在校验不通过时,对该行数据的多个数据项进行修正处理;
[0009]在校验通过时或修正处理后,对每个数据文件的每行数据,根据数据项数和预设分隔符,将多个数据项拼接为目标文件的一行数据,生成多个目标文件;
[0010]将多个目标文件输出至目的端。
[0011]本专利技术实施例提出一种异构数据源数据同步装置,用以对异构数据源的数据进行同步,成功率高,该装置包括:
[0012]数据文件获取模块,用于获得异构数据源的多个数据文件;
[0013]数据项分割模块,用于对每个数据文件的每行数据,根据该数据文件的分隔符,获得多个数据项;
[0014]校验模块,用于对每个数据文件的每行数据,基于该行数据的目标数据项数和每个数据项的类型,对该行数据的多个数据项进行校验;
[0015]修正模块,用于在校验不通过时,对该行数据的多个数据项进行修正处理;
[0016]数据项拼接模块,用于在校验通过时或修正处理后,对每个数据文件的每行数据,根据数据项数和预设分隔符,将多个数据项拼接为目标文件的一行数据,生成多个目标文件;
[0017]传输模块,用于将多个目标文件输出至目的端。
[0018]本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述异构数据源数据同步方法。
[0019]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述异构数据源数据同步方法。
[0020]本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述异构数据源数据同步方法。
[0021]在本专利技术实施例中,获得异构数据源的多个数据文件;对每个数据文件的每行数据,根据该数据文件的分隔符,获得多个数据项;对每个数据文件的每行数据,基于该行数据的目标数据项数和每个数据项的类型,对该行数据的多个数据项进行校验;在校验不通过时,对该行数据的多个数据项进行修正处理;在校验通过时或修正处理后,对每个数据文件的每行数据,根据数据项数和预设分隔符,将多个数据项拼接为目标文件的一行数据,生成多个目标文件;将多个目标文件输出至目的端。与现有技术通过数据同步工具进行同步的方法相比,在进行数据项分割后,对数据项进行了校验,且在校验不通过时,进行了修正处理,极大降低了数据项分割的脏数据的概率,从而提高了数据同步的成功率。
附图说明
[0022]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0023]图1为本专利技术实施例中异构数据源数据同步方法的流程图一;
[0024]图2为本专利技术实施例中异构数据源数据同步方法的流程图二;
[0025]图3为本专利技术实施例中进行数据项修正处理的流程图;
[0026]图4为本专利技术实施例中异构数据源数据同步装置的示意图一;
[0027]图5为本专利技术实施例中异构数据源数据同步装置的示意图二;
[0028]图6为本专利技术实施例中计算机设备的示意图。
具体实施方式
[0029]为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0030]在本说明书的描述中,所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的用语,即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施,其中
的步骤顺序不作限定,可根据需要作适当调整。
[0031]图1为本专利技术实施例中异构数据源数据同步方法的流程图一,如图1所示,包括:
[0032]步骤101,获得异构数据源的多个数据文件;
[0033]步骤102,对每个数据文件的每行数据,根据该数据文件的分隔符,获得多个数据项;
[0034]步骤103,对每个数据文件的每行数据,基于该行数据的目标数据项数和每个数据项的类型,对该行数据的多个数据项进行校验;
[0035]步骤104,在校验不通过时,对该行数据的多个数据项进行修正处理;
[0036]步骤105,在校验通过时或修正处理后,对每个数据文件的每行数据,根据数据项数和预设分隔符,将多个数据项拼接为目标文件的一行数据,生成多个目标文件;
[0037]步骤106,将多个目标文件输出至目的端。
[0038]在本专利技术实施例中,与现有技术通过数据同步工具进行同步的方法相比,在进行数据项分割后,对数据项进行了校验,且在校验不通过时,进行了修正处理,极大降低了数据项分割的脏数据的概率,从而提高了数据同步的成功率。
[0039]在步骤101中,获得异构数据源的多个数据文件,可以是hdfs(hadoop分布式文件系统)等上的数据文件以及gbase数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异构数据源数据同步方法,其特征在于,包括:获得异构数据源的多个数据文件;对每个数据文件的每行数据,根据该数据文件的分隔符,获得多个数据项;对每个数据文件的每行数据,基于该行数据的目标数据项数和每个数据项的类型,对该行数据的多个数据项进行校验;在校验不通过时,对该行数据的多个数据项进行修正处理;在校验通过时或修正处理后,对每个数据文件的每行数据,根据数据项数和预设分隔符,将多个数据项拼接为目标文件的一行数据,生成多个目标文件;将多个目标文件输出至目的端。2.如权利要求1所述的方法,其特征在于,在获得异构数据源的多个数据文件之后,还包括:根据并行度要求、传输文件大小要求,对每个数据文件进行格式转换,获得符合预设大小要求的数据文件;对每个数据文件的每行数据,根据该数据文件的分隔符,获得多个数据项,包括:对每个符合预设大小要求的数据文件的每行数据,根据该数据文件的分隔符,获得多个数据项。3.如权利要求1所述的方法,其特征在于,对每个数据文件的每行数据,根据该数据文件的分隔符,获得多个数据项,包括:对每个数据文件的每行数据,根据该数据文件的分隔符,用正则表达式将其分为多个数据项。4.如权利要求1所述的方法,其特征在于,对该行数据的多个数据项进行修正处理,包括:对每个数据文件的每行数据,计算该行数据的多个数据项的总数和目标数据项数据的差值;在该行数据的多个数据项的总数小于目标数据项数时,对每个数据项进行语义分析,根据语义分析结果,对差值个数据项进行拆分;在该行数据的多个数据项的总数大于目标数据项数时,对相邻数据项进行相似性分析,根据相似性分析结果,对差值个数据项对进行合并。5.一种异构数据源数据同步装置,其特征在于,包括:数据文件获取模块,用于获得异构数据源的多个数据文件;数据项分割模块,用于对每个数据文件的每行数据,根据该数据文件的分隔符,获得多个数据项;校验模块,用于对每个数据文件的每行数据,基于该行数据的目...

【专利技术属性】
技术研发人员:刘中梅
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1