一种数据迁移方法、装置、存储介质及平台制造方法及图纸

技术编号:29054833 阅读:25 留言:0更新日期:2021-06-26 06:24
本发明专利技术实施例公开了一种数据迁移方法、装置、存储介质及平台,涉及大数据处理技术领域。所述方法应用于分布式大数据迁移平台,包括:将源数据库中的待迁移数据加载至所述分布式大数据迁移平台的Hive数据仓库中;在所述Hive数据仓库中,通过Spark引擎对所述待迁移数据进行数据转换,生成目标数据;将所述目标数据从所述Hive数据仓库中迁移至目标数据库中。通过本发明专利技术实施例提供的技术方案,可以快速、高效地将源数据库中的数据迁移至目标数据库中,降低数据迁移过程中的对系统业务的影响。降低数据迁移过程中的对系统业务的影响。降低数据迁移过程中的对系统业务的影响。

【技术实现步骤摘要】
一种数据迁移方法、装置、存储介质及平台


[0001]本专利技术实施例涉及大数据处理
,尤其涉及一种数据迁移方法、装置、存储介质及平台。

技术介绍

[0002]伴随互联网技术的完善,数据采集渠道多样化,给各行各业提供了丰富的数据和海量的信息。然而,随着信息化建设的不断进步、完善,当当前环境不能适应新的需求的时候,就会被更强大的系统取代,此时,需要不同数据库间进行数据迁移。
[0003]数据迁移的同时需要对历史异常数据进行修复,满足新数据库的特性。数据迁移的成功失败直接关系到系统是否能成功上线投产,数据迁移的质量严重响新系统的稳定性,特别是对于金融、电信行业的显得尤为重要。因此,如何实现快速、高效的进行数据迁移转换,降低迁移过程中的对业务影响,变得至关重要。

技术实现思路

[0004]本专利技术实施例提供一种数据迁移方法、装置、存储介质及平台,可以快速、高效地将源数据库中的数据迁移至目标数据库。
[0005]第一方面,本专利技术实施例提供了一种数据迁移方法,包括:
[0006]将源数据库中的待迁移数据加载至所述分布式大数据迁移平台的Hive数据仓库中;
[0007]在所述Hive数据仓库中,通过Spark引擎对所述待迁移数据进行数据转换,生成目标数据;
[0008]将所述目标数据从所述Hive数据仓库中迁移至目标数据库中。
[0009]第二方面,本专利技术实施例还提供了一种数据迁移装置,包括:
[0010]数据加载模块,用于将源数据库中的待迁移数据加载至所述分布式大数据迁移平台的Hive数据仓库中;
[0011]数据转换模块,用于在所述Hive数据仓库中,通过Spark引擎对所述待迁移数据进行数据转换,生成目标数据;
[0012]数据迁移模块,用于将所述目标数据从所述Hive数据仓库中迁移至目标数据库中。
[0013]第三方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例提供的数据迁移方法。
[0014]第四方面,本专利技术实施例提供了一种分布式大数据迁移平台,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本专利技术实施例提供的数据迁移方法。
[0015]本专利技术实施例提供的数据迁移方案,将源数据库中的待迁移数据加载至所述分布式大数据迁移平台的Hive数据仓库中;在所述Hive数据仓库中,通过Spark引擎对所述待迁
移数据进行数据转换,生成目标数据;将所述目标数据从所述Hive数据仓库中迁移至目标数据库中。通过本专利技术实施例提供的技术方案,可以快速、高效地将源数据库中的数据迁移至目标数据库中,降低数据迁移过程中的对系统业务的影响。
附图说明
[0016]图1为本专利技术一实施例提供的一种数据迁移方法的流程图;
[0017]图2是本专利技术一实施例提供的数据转换的示意图;
[0018]图3是本专利技术一实施例提供的数据清洗示意图;
[0019]图4是本专利技术另一实施例中的一种数据迁移方法的流程图;
[0020]图5是本专利技术一实施例提供的数据迁移过程示意图;
[0021]图6是本专利技术另一实施例中的一种数据迁移装置的结构示意图;
[0022]图7是本专利技术另一实施例中的一种分布式大数据迁移平台的结构示意图。
具体实施方式
[0023]下面将参照附图更详细地描述本专利技术的实施例。虽然附图中显示了本专利技术的某些实施例,然而应当理解的是,本专利技术可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本专利技术。应当理解的是,本专利技术的附图及实施例仅用于示例性作用,并非用于限制本专利技术的保护范围。
[0024]应当理解,本专利技术的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本专利技术的范围在此方面不受限制。
[0025]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0026]需要注意,本专利技术中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0027]需要注意,本专利技术中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0028]本专利技术实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0029]相关技术中,主要通过数据迁移工具实现数据迁移,但是数据迁移工具只能一对一进行数据迁移,无法满足数据转换、数据加工、数据修复等场景需求。而目前分布式大型数据库,越来越多的应用到金融、电信等行业,单机的数据处理能力已到天花板,不能满足海量数据迁移性能需求,而且数据拆分、非法数据处理、乱码字符剔除等数据转换操作是数据迁移过程中必不可少的步骤,这些都是目前的迁移工具无法实现的。
[0030]图1为本专利技术一实施例提供的一种数据迁移方法的流程图,本专利技术实施例可适用于对数据进行迁移情况,该方法可以由数据迁移装置来执行,该装置可由硬件和/或软件组成,并一般可集成在分布式大数据迁移平台中。如图1所示,该方法具体包括如下步骤:
[0031]步骤110,将源数据库中的待迁移数据加载至所述分布式大数据迁移平台的Hive数据仓库中。
[0032]其中,分布式大数据迁移平台可理解为包含分布式数据库的数据迁移平台,其中,分布式数据为位于不同的地点的多台计算器服务器通过网络相互连接,统统组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。例如,分布式大数据迁移平台可以为Hadoop平台。源数据库可以为用于存储源系统中的数据的数据库。源系统为与分布式大数据迁移平台相互独立的系统。其中,Hive可以是基于分布式大数据迁移平台(如Hadoop)的数据仓库工具,可用于数据提取、转化、加载,是一种可以存储、查询、分析存在Hadoop中的大规模数据组件。
[0033]在本专利技术实施例中,分布式大数据迁移平台将源数据库中的待迁移数据加载至分布式大数据迁移平台的Hive数据仓库中。其中,待迁移数据以为源数据库中的全部数据,也可以为源数据库中的部分数据。具体的,分布式大数据迁移平台从源数据库中获取待迁移数据,并将待迁移数据存储至分布式大数据迁移平台的Hive数据仓库中。可选的,源数据库可以包括Hdfs、Hive、Elasticsearch、Hbase、Oracle及Mysql等数据库。源数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据迁移方法,其特征在于,应用于分布式大数据迁移平台,包括:将源数据库中的待迁移数据加载至所述分布式大数据迁移平台的Hive数据仓库中;在所述Hive数据仓库中,通过Spark引擎对所述待迁移数据进行数据转换,生成目标数据;将所述目标数据从所述Hive数据仓库中迁移至目标数据库中。2.根据权利要求1所述的方法,其特征在于,将源数据库中的待迁移数据加载至所述分布式大数据迁移平台的Hive数据仓库中,包括:基于文件传输协议FTP,从源数据库中获取待迁移数据,并将所述待迁移数据存储至所述分布式大数据迁移平台的HDFS文件系统中;将所述HDFS文件系统中的待迁移数据加载至所述分布式大数据迁移平台的Hive数据仓库中。3.根据权利要求2所述的方法,其特征在于,基于文件传输协议FTP,从源数据库中获取待迁移数据,并将所述待迁移数据存储至所述分布式大数据迁移平台的HDFS文件系统中,包括:基于文件传输协议FTP,从源数据库中获取待迁移数据,并将所述待迁移数据同步至所述分布式大数据迁移平台的本地磁盘中;基于数据接入组件从所述本地磁盘中加载所述待迁移数据,并将所述待迁移数据存储至所述分布式大数据迁移平台的HDFS文件系统中。4.根据权利要求1所述的方法,其特征在于,所述源数据库为关系型数据库;相应的,将源数据库中的待迁移数据加载至所述分布式大数据迁移平台的Hive数据仓库中,包括:基于Java数据库连接JDBC将源数据库中的待迁移数据加载至所述分布式大数据迁移平台的Hive数据仓库中。5.根据权利要求1所述的方法,其特征在于,所述源数据库为非关系型数据库;相应的,将源数据库中的待迁移数据加载至所述分布式大数据迁移平台的Hive数据仓库中,包括:基于网络认证协议Kerberos将源数据库中的待迁移数据加载至所述分布式大数据迁移平台的Hive数据仓库中。6.根据权利要求1所述的方法,其特征在于,通过Spark引擎对所述待迁移数据进行数据转换,生成目标数据,包括:基于Spark引擎执行数据转换策略,并基于所述数据转换策略对所述待迁移数据进行数据转换,生成目标数据。7.根据权利要求6所述的方法,其特征在于,所述数据转换策略包括数据分片策略、数据关联策略、冗余数据丢弃策略、差异数据修复策略及缺失数据补齐策略中的至少一个。8.根据权利要求1所述的方法,其特征在...

【专利技术属性】
技术研发人员:金磐石鲜伟
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1