数据同步方法及装置制造方法及图纸

技术编号:39600482 阅读:11 留言:0更新日期:2023-12-03 20:00
本公开的实施方式涉及大数据技术领域,更具体地,本公开的实施方式涉及数据同步方法及装置

【技术实现步骤摘要】
数据同步方法及装置、计算机可读存储介质、电子设备


[0001]本公开的实施方式涉及大数据
,更具体地,本公开的实施方式涉及数据同步方法及装置

计算机存储介质和电子设备


技术介绍

[0002]本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术

[0003]在大数据领域,数据在数仓中加工后需要同步至存储服务中,当前,离线数据同步主要通过
datax(
异构数据源离线同步工具
)
完成,离线任务是由调度服务启动,调度服务通常是多监控节点
+
多工作节点的高可用架构

每个监控节点和工作节点部署在一个单独的机器上,工作节点负责
datax
的具体的任务启动,在同步任务中,调度服务的工作节点会为每个同步任务启动一个
datax
进程


技术实现思路

[0004]但是,现有技术会导致调度服务的工作节点的负载过高,由于同步任务和调度服务的工作进程位于同一个工作节点上,当启动大量同步任务时,工作节点负载过高,导致工作进程挂掉,甚至导致调度服务不可用,所有的离线任务出现故障;另一方面,无法对同步任务使用的资源进行管理和限制

[0005]为此,非常需要一种改进的数据同步方法及装置

计算机可读存储介质和电子设备,以提供一种降低调度服务的工作节点的负载的数据同步方法

[0006]在本上下文中,本公开的实施方式期望提供一种数据同步方法和装置

计算机可读存储介质和电子设备

[0007]根据本公开的一个方面,提供一种数据同步方法,包括:
[0008]获取待同步数据,创建与所述待同步数据对应的同步任务;
[0009]确定进行调度服务的目标工作节点,在所述目标工作节点中启动任务提交进程,通过所述任务提交进程将所述同步任务提交至目标资源管理器;
[0010]通过所述目标工作节点,在所述目标资源管理器中启动所述同步任务,完成对所述待同步数据的同步

[0011]在本公开的一种示例性实施例中,获取待同步数据,创建与所述待同步数据对应的同步任务,包括:
[0012]获取所述待同步数据的同步参数以及运行配置参数,将所述同步参数以及所述运行配置参数作为主程序参数;
[0013]添加数据同步依赖,基于所述数据同步依赖以及所述主程序参数,生成与所述同步数据对应的同步任务

[0014]在本公开的一种示例性实施例中,在通过所述任务提交进程将所述同步任务提交至目标资源管理器时,所述方法包括:
[0015]获取所述主程序参数中包括的容器资源限制参数,通过所述容器资源限制参数在所述目标资源管理器中为所述同步任务申请资源;
[0016]获取所述目标资源管理器的目标提交空间,获取所述目标提交空间的任务资源限制参数,通过所述任务资源限制参数对所述同步任务的占用资源进行限制

[0017]在本公开的一种示例性实施例中,在将所述同步任务提交至目标资源管理器之后,所述方法还包括:
[0018]控制所述任务提交进程退出

[0019]在本公开的一种示例性实施例中,在所述目标资源管理器中启动所述同步任务之后,所述方法还包括:
[0020]获取所述目标资源管理器分配的与所述同步任务对应的唯一标识,对所述唯一标识进行存储;
[0021]在所述目标工作节点中启动监听线程,通过所述监听线程对所述目标资源管理器中的同步任务进行监听

[0022]在本公开的一种示例性实施例中,通过所述监听线程对所述目标资源管理器中的同步任务进行监听,包括:
[0023]获取所述目标资源管理器中所述同步任务的同步状态,将所述同步状态同步至所述目标工作节点的内存中

[0024]在本公开的一种示例性实施例中,所述方法还包括:
[0025]在所述目标工作节点故障时,选取代替工作节点;
[0026]通过所述代替工作节点,读取所述同步任务的唯一标识,并将所述唯一标识恢复至所述代替工作节点的内存中;
[0027]通过所述代替工作节点对所述同步任务进行监听

[0028]根据本公开的一个方面,提供一种数据同步装置,包括:
[0029]同步任务创建模块,用于获取待同步数据,创建与所述待同步数据对应的同步任务;
[0030]任务容器化模块,用于确定进行调度服务的目标工作节点,在所述目标工作节点中启动任务提交进程,通过所述任务提交进程将所述同步任务提交至目标资源管理器;
[0031]数据同步模块,用于通过所述目标工作节点,在所述目标资源管理器中启动所述同步任务,完成对所述待同步数据的同步

[0032]根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时上述的数据同步方法

[0033]根据本公开的一个方面,提供一种电子设备,包括:
[0034]处理器;以及
[0035]存储器,用于存储所述处理器的可执行指令;
[0036]其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据同步方法

[0037]根据本公开实施方式的数据同步方法,一方面,获取到待同步数据之后,创建与待同步数据对应的同步任务,确定目标工作节点,对于该同步任务在目标工作节点中启动任务提交进程,该任务提交进程只负责将同步任务提交至目标资源管理器,由目标资源管理
所示,调度服务是监控节点
110+
工作节点
120
的高可用架构,当需要对数据进行同步时,工作节点
120
中还包括多个
datax
进程
130。
在工作节点
120
中在进行离线数据同步时,工作节点
120
既要负责数据同步任务的启动,还需要启动
datax
进程
130
来完成数据同步任务,且同步任务是通过
shell
脚本启动,并在物理机上运行,导致工作节点的负载过高

无法对同步任务的资源进行管理与限制以及在工作节点故障或者升级需要更新重启时,会直接杀死同步任务,并在其他工作节点再次启动该同步任务,造成
CPU
和内存资源的浪费

[0057]鉴于上述内容,本公开的基本思想在于:根据本公开实施方式的数据同步方法和数据同步装置,首先,获取待同步数据,根据待同步数据创建同步任务,确定进行调度服务的目标工作节点,在目标工作节点中启动提交同步任务的提交进程,通过该提交进程将同步任务提交至目标资源本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据同步方法,其特征在于,包括:获取待同步数据,创建与所述待同步数据对应的同步任务;确定进行调度服务的目标工作节点,在所述目标工作节点中启动任务提交进程,通过所述任务提交进程将所述同步任务提交至目标资源管理器;通过所述目标工作节点,在所述目标资源管理器中启动所述同步任务,完成对所述待同步数据的同步
。2.
根据权利要求1所述的数据同步方法,其特征在于,获取待同步数据,创建与所述待同步数据对应的同步任务,包括:获取所述待同步数据的同步参数以及运行配置参数,将所述同步参数以及所述运行配置参数作为主程序参数;添加数据同步依赖,基于所述数据同步依赖以及所述主程序参数,生成与所述同步数据对应的同步任务
。3.
根据权利要求2所述的数据同步方法,其特征在于,在通过所述任务提交进程将所述同步任务提交至目标资源管理器时,所述方法包括:获取所述主程序参数中包括的容器资源限制参数,通过所述容器资源限制参数在所述目标资源管理器中为所述同步任务申请资源;获取所述目标资源管理器的目标提交空间,获取所述目标提交空间的任务资源限制参数,通过所述任务资源限制参数对所述同步任务的占用资源进行限制
。4.
根据权利要求1所述的数据同步方法,其特征在于,在将所述同步任务提交至目标资源管理器之后,所述方法还包括:控制所述任务提交进程退出
。5.
根据权利要求1所述的数据同步方法,其特征在于,在所述目标资源管理器中启动所述同步任务之后,所述方法还包括:获取所述目标资源管理器分配的与所述同步任务对应的唯一标识,对所述唯一标识进行...

【专利技术属性】
技术研发人员:杨凯
申请(专利权)人:杭州网易再顾科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1