【技术实现步骤摘要】
一种基于Datax框架的数据同步方法
[0001]本专利技术属于数据处理
,涉及一种基于Datax框架研发的数据同步方法,适用于ETL数据处理转换迁移。
技术介绍
[0002]目前,基于Datax框架同步数据时,都是将源数据库和目标数据库的连接信息和字段信息写入到json文件中,在配置json文件时,json文件中源库的字段顺序必须与目标库的字段顺序一致,然后将json文件上传到目标服务器,在服务器上运行Datax的命令调用json文件进行数据同步。
[0003]这种基于Datax框架使用json文件的方式进行数据同步工作时,当数据源表字段发生变动时,就只能重新调整json文件中源和目标表字段的信息,不管是开始配置json文件还是当数据源及表发生变动时都需重新调整json文件,很容易出错,排错纠错很费时,需要花大量时间去重新核对字段,这样将严重影响数据及时性,对于一些时效性比较强的系统来说,数据的故障就是致命的。因此,亟需引进一些新方法摒弃传统数据同步方法的弊端。
技术实现思路
[0004]本专利技术的目的在于提供一种基于Datax框架的数据同步方法,解决了在使用Datax框架技术进行抽取分发数据时,json文件配置难度大,操作不灵活,人员技术水平要求高的等问题。
[0005]基于Datax框架使用json脚本进行数据同步时,出现的数据操作不灵活、开发复杂性高、开发难度大等现有技术不足问题。本专利技术基于Datax框架提供了一种适用范围广、开发难度低、灵活配置的应用技术。 >[0006]本专利技术所采用的技术方案如下:一种基于Datax框架的数据同步方法,包括如下步骤:使用Datax框架整合json脚本文件开发的后台程序及shell脚本程序;在服务器上安装Datax程序;整合json脚本文件开发的后台程序,将上述的后台程序进行打包部署;确认源数据库和目标数据库;将执行程序部署到服务器上,进行执行数据的同步工作;所述数据同步框架为Datax;所述后台程序为整合json脚本文件程序;所述执行程序是shell命令脚本程序,所述配置文件对应顺序配置任务参数文件;所述源数据库指数据的来源;所述目标数据库指将数据同步到目标数据库或者目录中。
[0007]所述源数据库指数据来源数据库为Hive、Hdfs、Oracle或Mysql。
[0008]所述目标数据库指将数据同步到目标数据库或者目录中为Hive、Hdfs、Oracle、Mysql或文件目录中。
[0009]本专利技术的有益效果是:本专利技术提出的基于Datax框架研发的同步数据方法,解决了基于Datax框架同步数据时json脚本文件中任务参数修改配置难度大,不易维护、维护成本
高的问题。通过配置文件对基于Datax框架的json脚本文件任务参数进行操作,易于维护、不需要专业技术人员修改程序代码进行维护,从而降低维护成本。同时,本专利技术基于Datax框架研发的同步数据的方法,相比Hdfs、Oracle、Mysql之间同步数据时,在数据量大的情况下更具有优势,尤其在不同的数据库之间;例如Oracle与Oracle数据库进行同步数据时,需要将源数据库中的数据导出成dmp、pde或sql脚本文件的数据格式,然后再使用命令同步到目标数据库中;例如Oracle数据库与MySQL数据库之间同步数据时,需要将数据文件转换两者都具有的数据格式才可以同步,在同步数据的时候必须注意数据库版本,数据文件格式及操作繁琐耗时等问题。采用本专利技术同步数据的方法,可以避免上述出现的问题。
附图说明
[0010]图1本专利技术流程示意图;图2 为本专利技术数据同步位序图;图3为数据同步位序图。
具体实施方式
[0011]下面结合附图和具体实施方式对本专利技术进行详细说明。
[0012]一种基于Datax框架的数据同步方法,包括如下步骤:使用Datax框架整合json脚本文件开发的后台程序及shell脚本程序;在服务器上安装Datax程序;整合json脚本文件开发的后台程序,将上述的后台程序进行打包部署;确认源数据库和目标数据库;将执行程序部署到服务器上,进行执行数据的同步工作;所述数据同步框架为Datax;所述后台程序为整合json脚本文件程序;所述执行程序是shell命令脚本程序,所述配置文件对应顺序配置任务参数文件;所述源数据库指数据的来源;所述目标数据库指将数据同步到目标数据库或者目录中。
[0013]所述源数据库指数据来源数据库为Hive、Hdfs、Oracle或Mysql。
[0014]所述目标数据库指将数据同步到目标数据库或者目录中为Hive、Hdfs、Oracle、Mysql或文件目录中。
[0015]具体实施步骤:基于Datax框架研发的同步数据的方法,包括后台程序、执行程序、数据同步框架、配置文件、源数据库和目标数据库;源数据库和目标数据库通过配置文件和后台程序进行连接,执行程序与后台程序连接;所述后台程序为整合json字符串开发后台程序,所述执行程序为shell命令编写的程序,所述数据同步框架为Datax数据同步框架,所述配置文件按照一定的顺序配置任务参数文件,所述源数据库和目标数据库为异构数据源,可以是hdfs、Hive、Oracle、Mysql、文件目录。
[0016]1、技能储备:具有一定的Java编程基础,熟悉数据库的sql语句、shell命令和Datax数据同步框架技术;2、将Datax框架使用的json字符串脚本拼接到程序中,并进行测试;3、在服务器上安装Datax,并进行测试,能够分发数据;4、将同步数据的参数按照一定的顺序保存到配置文件中;5、确认源数据库和目标数据库,通过shell脚本程序调用保存在配置文件中的源
数据库和目标数据库的任务参数,执行shell脚本进行数据的同步工作;为了使用本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0017]实施例1本专利技术实施例1提供了一种基于Datax数据同步框架抽取分发数据的方法,以起始库为Hive数据库,目标库为Oracle数据库,保存了任务参数的配置文件。
[0018]S1.在配置文件中配置源数据库Hive数据库和数据同步到的目标库Oracle数据库及相关表和数据库信息。
[0019]S2.将整合json字符串的后台程序部署到服务器上,并在服务器上安装Datax服务框架。
[0020]S3.部署shell脚本程序,执行shell程序获取配置文件中参数信息进行数据的同步。实施例2本专利技术实施例1提供了一种基于Datax数据同步框架抽取分发数据的方法,以起始库为Hive数据库,目标库为Mysql数据库,保存了任务参数的配置文件。
[0021]S1.在配置文件中配置源数据库Hive数据库和数据同步到的目标库Mysql数据库及相关表和数据库信息。
[0022]S2.将整合json字符串的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于Datax框架的数据同步方法,其特征在于包括如下步骤:使用Datax框架整合json脚本文件开发的后台程序及shell脚本程序;在服务器上安装Datax程序;整合json脚本文件开发的后台程序,将上述的后台程序进行打包部署;确认源数据库和目标数据库;将执行程序部署到服务器上,进行执行数据的同步工作;所述数据同步框架为Datax;所述后台程序为整合json脚本文件程序;所述执行程序是shell命令脚本程序,所述配置文件对...
【专利技术属性】
技术研发人员:李振涛,颜强,殷亚辉,杨婷玉,尚志忠,任晓菲,
申请(专利权)人:中电万维信息技术有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。