一种异构数据整合的方法和系统技术方案

技术编号:31982876 阅读:14 留言:0更新日期:2022-01-20 01:57
本发明专利技术公开了一种异构数据整合的方法和系统,属于计算机技术领域,所述方法包括:预设异构数据的数据源和连接方式,以及异构数据中数据源类型和字段的映射关系;根据所述连接方式,从所述数据源中读取异构数据;根据所述映射关系,将所读取的异构数据进行标准化,获得标准数据;以覆盖的方式,将所述标准数据写入非关系型数据库。根据映射关系,对异构数据的标准化后,与目标非关系型数据库的字段相同,起到异构数据整合的作用;覆盖新增的方式可以高效写入数据,提高数据质量,避免由于数据修改而产生的写入错误或遗漏。改而产生的写入错误或遗漏。改而产生的写入错误或遗漏。

【技术实现步骤摘要】
一种异构数据整合的方法和系统


[0001]本专利技术涉及计算机
,具体涉及一种异构数据整合的方法和系统。

技术介绍

[0002]随着信息技术的发展,企业或单位的数据量在高速增加,这些数据每年增长指数达60%。信息技术已逐步进入到大数据时代,大数据是互联网发展到现今阶段的一种表象或特征,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。但是每个企业或单位独立保存和维护自己的信息数据,这些数据具有不同的结构,即产生不同的异构数据,具有来源不同、数据存储的逻辑不同的特点,例如独立的销售系统和独立的采购系统中存在部门的编码、名称或简写不一致,再如不同医院管理系统中,字段名不同、而含义相同;这就导致了异构数据在整合或融合的过程中,效率低、数据遗漏、数据错误、难以维护等问题。
[0003]现有技术中,如果通过ogg或者binlog等日志方式同步异构数据,但是存在日志权限开放的安全性问题。

技术实现思路

[0004]针对现有技术中存在的上述技术问题,本专利技术提供一种异构数据整合的方法和系统,通过预设的映射关系进行标准化后,将标准数据以覆盖的方式,将所述标准数据写入非关系型数据库,以提高数据整合的效率、提高容错性。
[0005]本专利技术公开了一种异构数据整合的方法,所述方法包括:预设异构数据的数据源和连接方式,以及异构数据中数据源类型和字段的映射关系;根据所述连接方式,从所述数据源中读取异构数据;根据所述映射关系,将所读取的异构数据进行标准化,获得标准数据;以覆盖的方式,将所述标准数据写入非关系型数据库。
[0006]优选的,读取异构数据的方法包括:
[0007]根据选择的字段,从数据源中读取或筛选数据,获得异构数据;
[0008]根据预设的数据传输速率域值和线程数,通过多线程读取、并在数据传输速率域值范围内分片传输异构数据。
[0009]优选的,将所述标准数据写入非关系型数据库的方法包括:
[0010]根据预设的加密方法或脱敏方法,对所述标准数据进行加密或脱敏后,写入非关系型数据库中。
[0011]优选的,本专利技术的方法还包括通过队列进行数据整合的方法:
[0012]将所读取的异构数据加入到队列中;
[0013]从队列中读取异构数据进行批量标准化后,将标准数据写入到分布式非关系型数据库中。
[0014]优选的,所述队列中,异构数据保存到record对象中。
[0015]优选的,本专利技术的方法还包括数据回溯的方法:
[0016]根据修改的数据,获得包括所修改数据的数据回溯范围;
[0017]根据所述回溯范围从数据源中读取异构数据;
[0018]将所述异构数据标准化后,覆盖到非关系型数据库中。
[0019]优选的,本专利技术的方法还包括从多个数据源读取数据的方法:
[0020]分别为每个数据源设置配置信息,所述配置信息包括数据源、连接方式、数据源类型映射关系和字段的映射关系;
[0021]根据所设置的数据源和连接方式,分别从所述数据源中读取异构数据;
[0022]根据数据源类型映射关系和字段的映射关系,分别将相应数据源的异构数据进行标准化,获得标准数据;
[0023]以覆盖的方式,分别将每个数据源相应的标准数据写入非关系型数据库。
[0024]本专利技术还提供一种用于实现上述方法的系统,包括读取模块、配置模块、标准化模块和插入模块;
[0025]所述配置模块用于预设异构数据的数据源和连接方式,以及异构数据中数据源类型和字段的映射关系;
[0026]所述读取模块用于根据所述连接方式,从所述数据源中读取异构数据;
[0027]所述标准化模块用于根据所述映射关系,将所读取的异构数据进行标准化,获得标准数据;
[0028]所述插入模块用于以覆盖的方式,将所述标准数据写入非关系型数据库。
[0029]优选的,所述系统包括多个数据源,
[0030]所述配置模块用于分别为每个数据源设置配置信息;
[0031]为每个数据源部署相应的读取模块和标准化模块,所述读取模块用于根据所设置的数据源和连接方式,从相应的数据源中读取异构数据;
[0032]相应的标准化模块将从相应数据源所读取的异构数据进行标准化。
[0033]优选的,为每个数据源部署相应的插入模块,
[0034]所述配置信息包括脱敏的方法或加密的方法;
[0035]所述插入模块将相应的标准数据脱敏或加密后,写入非关系型数据库;
[0036]所述读取模块还用于根据预设的数据传输速率域值和线程数,通过多线程读取、并在数据传输速率域值范围内分片传输异构数据。
[0037]与现有技术相比,本专利技术的有益效果为:根据映射关系,对异构数据的标准化后,与目标非关系型数据库的字段相同,起到异构数据整合的作用;覆盖新增的方式可以高效写入数据,提高数据质量,避免由于数据修改而产生的写入错误或遗漏。
附图说明
[0038]图1是本专利技术的异构数据整合的方法流程图;
[0039]图2是本专利技术的系统逻辑框图。
具体实施方式
[0040]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人
员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0041]下面结合附图对本专利技术做进一步的详细描述:
[0042]一种异构数据整合的方法,如图1所示,所述方法包括:
[0043]步骤S1:预设异构数据的数据源和连接方式,以及异构数据中数据源类型和字段的映射关系。数据源的类型可以是Mysql、SqlServer、Oracle、Excel、Mango、API等。
[0044]步骤S2:根据所述连接方式,从所述数据源中读取异构数据。
[0045]具体的,根据选择的字段,从数据源中读取或筛选数据,获得异构数据,如从数据源中读取表或视图。数据读取中,还可以根据预设的数据传输速率域值和线程数,通过多线程读取、并在数据传输速率域值范围内分片传输异构数据。通过限定数据传输速率域值范围,防止对数据源的正常工作造成负担或干扰;通过分片传输提高数据传输的效率。
[0046]步骤S3:根据所述映射关系,将所读取的异构数据进行标准化,获得标准数据。例如将同义、不同名的字段进行标准化。
[0047]步骤S4:以覆盖新增的方式,将所述标准数据写入非关系型数据库,以提高容错,和数据处理的效率。非关系型数据库可以是MongoDB或者Redis,但不限于此;覆盖的方式可以通过MongoDB upset实现。还可以根据预设的加密方法或脱敏方法,对所述标准数据进行加密或脱敏后,写入非关系型数据库中,加密方式可以是des或aes;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异构数据整合的方法,其特征在于,所述方法包括:预设异构数据的数据源和连接方式,以及异构数据中数据源类型和字段的映射关系;根据所述连接方式,从所述数据源中读取异构数据;根据所述映射关系,将所读取的异构数据进行标准化,获得标准数据;以覆盖的方式,将所述标准数据写入非关系型数据库。2.根据权利要求1所述的方法,其特征在于,读取异构数据的方法包括:根据选择的字段,从数据源中读取或筛选数据,获得异构数据;根据预设的数据传输速率域值和线程数,通过多线程读取、并在数据传输速率域值范围内分片传输异构数据。3.根据权利要求1所述的方法,其特征在于,将所述标准数据写入非关系型数据库的方法包括:根据预设的加密方法或脱敏方法,对所述标准数据进行加密或脱敏后,写入非关系型数据库中。4.根据权利要求1所述的方法,其特征在于,还包括通过队列进行数据整合的方法:将所读取的异构数据加入到队列中;从队列中读取异构数据进行批量标准化后,将标准数据写入到分布式非关系型数据库中。5.根据权利要求4所述的方法,其特征在于,所述队列中,异构数据保存到record对象中。6.根据权利要求1所述的方法,其特征在于,还包括数据回溯的方法:根据修改的数据,获得包括所修改数据的回溯范围;根据所述回溯范围从数据源中读取异构数据;将所述异构数据标准化后,覆盖到非关系型数据库中。7.根据权利要求1所述的方法,其特征在于,还包括从多个数据源读取数据的方法:分别为每个数据源设置配置信息,所述配置信息包括数据源、连接方式、数据源类型...

【专利技术属性】
技术研发人员:高波
申请(专利权)人:杭州楚风信息技术有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1