一种基于Spark技术的数据模转迁移方法、服务器及存储介质技术

技术编号:37722974 阅读:9 留言:0更新日期:2023-06-02 00:24
本发明专利技术提供一种基于Spark技术的数据模转迁移方法、服务器及存储介质,属于网络数据迁移技术领域,包括以下步骤:S1、预配置若干json文件,每个json文件包括若干节点,每个节点包含数据模转规则以及数据连接信息;按照每个节点的数据模转规则转换后的数据作为下一节点的输入数据;S2、启动Spark应用程序,输入参数,所述输入参数与预配置的json文件单独对应;S3、根据输入参数匹配对应的json预配置文件,Spark应用程序对该json配置文件进行解析;S4、根据解析结果对长途网络资源数据进行模转,并根据数据连接信息,对数据进行迁移,本发明专利技术能简化数据迁移流程,且提升数据迁移效率和覆盖面。面。面。

【技术实现步骤摘要】
一种基于Spark技术的数据模转迁移方法、服务器及存储介质


[0001]本专利技术属于网络数据迁移
,具体涉及一种基于Spark技术的数据模转迁移方法、服务器及存储介质。

技术介绍

[0002]在国家推动企业上云发展战略的大背景下,中国电信信息化企业对于IT系统解耦上云的需求日趋迫切,业务系统解耦上云必然伴随着数据模型转换及数据迁移处理,为此能够支撑中国电信长途网络资源复杂业务场景的数据模转、数据迁移工具对骨干资源系统IT上云具有重大意义,现阶段市面上的数据迁移在技术仍有许多不足,如:1、反复修改代码,迁移应用不够灵活:市面上的数据迁移工具,应用到长途资源迁移场景规则变化时,往往需要修改迁移代码,重新打包发版后方可实现数据迁移功能,不是足够的灵活,遇到迁移规则不明确的时候,应对的灵活性不足。
[0003]2、不能支撑复杂业务,迁移局限性较高:市面上数据迁移工具仅支持新老模型之间一对一的简单数据迁移,遇到长途资源模型改造,涉及表间关系复杂的数据模型转换迁移场景时,不能够很好的应对,表现出工具的高局限性。
[0004]3、海量数据场景下的迁移效率不足:传统的数据迁移工具在迁移少量数据时体现高效的数据迁移性能,当遇到长途网络资源海量数据、复杂场景的数据迁移时,会存在应用相应不及时,数据迁移效率低下的问题,往往不能及时高效的完成用户所需。

技术实现思路

[0005]本专利技术的目的是为了解决
技术介绍
中提及的问题,提供一种基于Spark技术的数据模转迁移方法、服务器及存储介质,能简化数据迁移流程,且提升数据迁移效率和覆盖面。
[0006]为实现上述技术目的,本专利技术采取的技术方案为:一种基于Spark技术的数据模转迁移方法,包括以下步骤:S1、预配置若干json文件,每个json文件包括若干节点,每个节点包含数据模转规则以及数据连接信息;按照每个节点的数据模转规则转换后的数据作为下一节点的输入数据;S2、启动Spark应用程序,输入参数,所述输入参数与预配置的json文件单独对应;S3、根据输入参数匹配对应的json预配置文件,Spark应用程序对该json配置文件进行解析;S4、根据解析结果对长途网络资源数据进行模转,并根据数据连接信息,对数据进行迁移。
[0007]作为优选,步骤S1中json文件每个节点包含的数据模转规则包括以下三种:规则一、简单转换,数据按照字段对应直接转换;规则二、单表关联,数据按照单张映射关系表进行转换;
规则三、多表关联,数据按照多张映射关系表依次进行转换。
[0008]作为优选,步骤S1中json文件每个节点包含的数据连接信息,包括长途网络资源的来源数据源名称或目标数据源名称。
[0009]作为优选,步骤S2中输入参数为json文件的文件名,每个json文件的文件名互不重复。
[0010]作为优选,所述Spark应用程序中预配置了所有长途网络资源的来源数据源和目标数据源的网络连接信息。
[0011]进一步,为了实现上述任一方法,提供一种服务器,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现上述任一种基于Spark技术的数据模转迁移方法。
[0012]进一步,为了实现上述任一方法,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现上述任一种基于Spark技术的数据模转迁移方法。
[0013]本专利技术的有益效果是:1、采用预配置的json文件,实现了数据迁移逻辑即用即配,根据长途网络资源不同的转换场景,匹配相应的json文件,Spark应用程序即可根据此json文件,实现对应的数据模转迁移功能。
[0014]2、统一的Spark调用方法,一次发版终生使用,将逻辑变更放在Json文件配置环节,从而避免反复修改迁移的代码程序,简化了需求变更流程,降低运营成本。
[0015]3、基于原生Spark的运行原理,将数据提取到Hdfs集群,所有关联计算任务均放在集群执行,提升长途网络资源数据模转的计算性能,提高迁移效率;。
[0016]4、Spark应用程序预配置了所有长途网络资源的来源数据源和目的数据源的网络连接信息,从而可以支持跨数据库平台的数据模转迁移,支持Sybase数据库、Oracle数据库、Mysql数据库、Postgresdb数据库等不同数据库平台之间的跨平台数据迁移。
附图说明
[0017]图1是简单场景的数据迁移同步流程示意图;图2是复杂场景的数据模转迁移流程示意图。
具体实施方式
[0018]以下结合附图对本专利技术的实施例作进一步详细描述。
[0019]需要注意的是,专利技术中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本专利技术可实施的范围,其相对关系的改变或调整,在无实质变更
技术实现思路
下,当亦视为本专利技术可实施的范畴。
[0020]如图1和2所示,本专利技术提供一种基于Spark技术的数据模转迁移方法,包括以下步骤:S1、预配置若干json文件,配置的json文件数量尽可能涵盖所有数据模转迁移的场景,当实际场景未包含在预配置的json文件中时,可临时增加该场景的json文件;每个json文件包括若干节点,节点数量根据数据模转迁移的场景相匹配,对于简
单场景(如图1所示),可以只设置一个节点,对复杂场景(如图2所示,需注意,图2未展示所有完整的节点,具体节点数量和其对应的数据模转规则根据实际情况配置),则根据需要设置与之相匹配的节点数量;每个节点包含数据模转规则以及数据连接信息;所述数据模转规则包括以下三种:规则一、简单转换,数据按照字段对应直接转换;比如字符A直接映射为B;规则二、单表关联,数据按照单张映射关系表进行转换;数据按照该映射关系表进行转换,比如1映射为A,或其他任何映射关系;规则三、多表关联,数据按照多张映射关系表依次进行转换;每张映射关系表有对应的映射规则,按照每张映射关系表的映射规则,对数据进行转换;需注意,每个节点包含的数据模转规则只有一个,每个节点转换后的数据结果作为下一个节点的输入数据,Spark应用程序在运行过程中,会依次解析json文件的所有节点,直接解析完所有节点,并按照每个节点的数据模转规则对数据进行转换,得到最终的输出数据结果,将其迁移至指定的目标数据源;所述数据连接信息,包括长途网络资源的来源数据源名称或目标数据源名称,Spark应用程序通过来源数据源名称和目标数据源名称匹配其对应的网络连接地址,从而加载或者载入对应的长途网络资源数据。
[0021]S2、启动Spark应用程序,根据实际使用场景输入参数(输入参数实际就是json文件的文件名,每个json的文件名互不重复);也就是根据使用场景,通过输入参数匹配与场景相对应的预配置好的json文件,即配即用。
[0022]S3、根据输入参数匹配对应的json预配置文件,Spark应用程序对该json配本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Spark技术的数据模转迁移方法,其特征在于,包括以下步骤:S1、预配置若干json文件,每个json文件包括若干节点,每个节点包含数据模转规则以及数据连接信息;按照每个节点的数据模转规则转换后的数据作为下一节点的输入数据;S2、启动Spark应用程序,输入参数,所述输入参数与预配置的json文件单独对应;S3、根据输入参数匹配对应的json预配置文件,Spark应用程序对该json配置文件进行解析;S4、根据解析结果对长途网络资源数据进行模转,并根据数据连接信息,对数据进行迁移。2.根据权利要求1所述的一种基于Spark技术的数据模转迁移方法,其特征在于:步骤S1中json文件每个节点包含的数据模转规则包括以下三种:规则一、简单转换,数据按照字段对应直接转换;规则二、单表关联,数据按照单张映射关系表进行转换;规则三、多表关联,数据按照多张映射关系表依次进行转换。3.根据权利要求2所述的一种基于Spark...

【专利技术属性】
技术研发人员:党咏欣张彬郭建章李斌曲欣傅博
申请(专利权)人:中电信数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1