数据同步方法及装置、电子设备和存储介质制造方法及图纸

技术编号:37407581 阅读:30 留言:0更新日期:2023-04-30 09:33
本公开是关于一种数据同步方法及装置、电子设备以及计算机可读存储介质,涉及数据处理技术领域,可以应用于不同类型数据库之间进行数据同步的场景。该方法包括:响应于接收到的数据同步任务,获取数据同步任务对应的源文件存储路径;基于源文件存储路径下的当前文件夹数量,创建与数据同步任务匹配的监听线程对象;基于监听线程对象,确定每个文件夹下的待上传文件数量,以确定每个文件夹对应的上传线程对象;通过上传线程对象,将源文件存储路径下的源数据文件存储至目标文件存储路径。本公开通过监听源文件存储路径下的文件数量创建监听线程对象,实现不同数据库之间的数据同步,在保证文件上传效率的同时避免了线程对象的浪费。的浪费。的浪费。

【技术实现步骤摘要】
数据同步方法及装置、电子设备和存储介质


[0001]本公开涉及数据处理
,具体而言,涉及一种数据同步方法、数据同步装置、电子设备以及计算机可读存储介质。

技术介绍

[0002]传统关系型数据库是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解。传统关系型数据库针对海量数据的存储与联机分析处理(Online Analytical Processing,OLAP)操作并不擅长,所以在实际应用中可以将数据从关系型数据库中同步到Hadoop的数据仓库工具(Hive)等数据库中,将Hive数据库作为数据仓库用于长期数据的存储与OLAP运算。
[0003]例如,将数据从关系型数据库同步到Hive的方案主要有两种:第一种是使用Java数据库连接(Java Database Connectivity,JDBC)的方式导入。第二种是使用数据迁移Sqoop等开源工具采取批量抽取的方式将数据从源库抽取到Hive中。但是上述方式在数据的同步过程中可能遇到一些性能瓶颈,导致同步效率较低。
[0004]需要说明的是,在上述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据同步方法,其特征在于,包括:响应于接收到的数据同步任务,获取所述数据同步任务对应的源文件存储路径;所述源文件存储路径包括第一类型数据库中的文件存储路径;基于所述源文件存储路径下的当前文件夹数量,创建与所述数据同步任务数量匹配的监听线程对象;基于所述监听线程对象,确定所述源文件存储路径中每个文件夹下的待上传文件数量,根据各所述待上传文件数量确定每个所述文件夹对应的上传线程对象;通过所述上传线程对象,将所述源文件存储路径下的源数据文件存储至目标文件存储路径;所述目标文件存储路径包括第二类型数据库中的文件存储路径。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过外接的应用程序提供任务配置界面,接收基于所述任务配置界面进行的任务配置操作;确定所述任务配置操作对应的任务配置参数,基于所述任务配置参数生成所述数据同步任务。3.根据权利要求2所述的方法,其特征在于,所述任务配置参数包括源文件存储路径、目标数据库、目标数据表、目标文件存储路径、异常文件存储路径、黑名单文件列表、白名单文件列表、上传线程资源数量与文件上传策略名称中的任意一种或多种的组合。4.根据权利要求1所述的方法,其特征在于,所述基于所述源文件存储路径下的当前文件夹数量,创建与所述数据同步任务数量匹配的监听线程对象,包括:获取预先配置的第一文件扫描周期;基于所述第一文件扫描周期对所述源文件存储路径进行扫描操作,确定当前时刻下所述源文件存储路径下的当前文件夹数量;根据所述当前文件夹数量确定与所述数据同步任务匹配的监听线程数量;基于所述监听线程数量实时新建或销毁所述监听线程对象。5.根据权利要求1所述的方法,其特征在于,所述根据各所述待上传文件数量确定每个所述文件夹对应的上传线程对象,包括:获取预先配置的文件数量阈值;如果所述待上传文件数量小于或等于所述文件数量阈值,则将所述文件夹对应的监听线程对象作为所述上传线程对象;如果所述待上传文件数量大于所述文件数量阈值,则从上传线程池中获取空闲线程对象作为所述上传线程对象。6.根据权利要求5所述的方法,其特征在于,所述从上传线程池中获取空闲线程对象作为所述上传线程对象,包括:基于所述文件数量阈值,对所述源数据文件进行切分处理,得到切分数据文件;从所述上传线程池中,获取所述空闲线程对象作为所述切分数据文件对应的上传线程对象。7.根据权利要求1所述的方法,其特征在于,所述通过所述上传线程对象,将所述源文件存储路径下的源数据文件存储至目标文件存储路径,包括:获取所述上传线程对象;
由所述上传线程对象采用数据覆盖模式并通过数据存储接口,将所述源文件存储路径下的源数据文件存储至目标文件存储路径。8.根据权利要求7所述的方法,其特征在于,所述将所述源文件存储路径下的源数据文件存储至目标文件存储路径,包括:从所述第一类型数据库的临时存储区域,获取所述源文件存储路径下的源数据文件;获取所述源数据文件对应的文件上传策略;基于所述文件上传策略,生成所述源数据文件在所述第二类型数据库中对应的分区新增判断指令;根据所述分区新增判断指令与...

【专利技术属性】
技术研发人员:郑子骁
申请(专利权)人:长鑫存储技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1