一种数据同步方法、装置,计算机设备和存储介质制造方法及图纸

技术编号:38821344 阅读:10 留言:0更新日期:2023-09-15 20:00
本发明专利技术适用于数据梳理技术领域,提供了一种数据同步方法、装置,计算机设备和存储介质,所述同步方法包括:获取源数据并生成待同步数据;根据所述待同步数据生成资源配置表,所述资源配置表用于表征待同步数据的来源信息、表征存储待同步数据的目标数据库信息以及表征执行待同步数据同步任务的资源池信息;根据所述资源配置表将所述待同步数据同步至目标数据库。通过设置资源配置表,并在资源配置表的规划下,对待同步数据以及用于同步待同步数据的资源进行双向规划,使计算引擎无需在有同步任务时就启动,防止计算引擎多次启动导致同步时间慢;且能够对每个资源池得以最大利用;另外,也可以防止短时间内同时执行大量同步任务。务。务。

【技术实现步骤摘要】
一种数据同步方法、装置,计算机设备和存储介质


[0001]本专利技术涉及数据处理领域,特别是涉及一种数据同步方法、装置,计算机设备和存储介质。

技术介绍

[0002]当今世界是一个充满着数据的互联网世界,充斥着大量的数据。即这个互联网世界就是数据世界。通过数据库来存储数据已经深入生活中的各种场景,数据的来源有很多,比如出行记录、消费记录、浏览的网页、发送的消息等等。除了文本类型的数据,图像、音乐、声音都是数据。
[0003]不同的业务系统之间经常有数据流转,且数据交互变得越来越频繁,当数据在业务系统之间流转过程中,需要保证数据的正确性,保证数据同步可以兼容多种数据库格式;即数据同步要保证数据的完整性和一致性。常用的数据同步方式有批同步和流同步,也存在批同步和流同步同时进行的场景。
[0004]现有技术在进行数据同步过程中,通常是将源数据通过计算引擎直接同步至目标数据库中。
[0005]现有技术在数据同步过程中耗时较慢并表浪费计算资源。

技术实现思路

[0006]基于此,有必要针对上述的问题,提供一种数据同步方法、装置,计算机设备和存储介质。
[0007]在一个实施例中,获取源数据并生成待同步数据;
[0008]根据所述待同步数据生成资源配置表,所述资源配置表用于表征待同步数据的来源信息、表征存储待同步数据的目标数据库信息以及表征执行待同步数据同步任务的资源池信息;
[0009]根据所述资源配置表将所述待同步数据同步至目标数据库。
[0010]在其中一个实施例中,一种数据同步装置,所述同步装置包括:
[0011]获取模块,获取源数据并生成待同步数据;
[0012]配置模块,所述资源配置表用于表征待同步数据的来源信息、表征存储待同步数据的目标数据库信息以及表征执行待同步数据同步任务的资源池信息;
[0013]同步模块,根据所述资源配置表将所述待同步数据同步至目标数据库。
[0014]一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述数据同步方法的步骤。
[0015]一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述数据同步方法的步骤。
[0016]上述数据同步方法、装置,计算机设备和存储介质,通过设置资源配置表,并在资源配置表的规划下,对待同步数据以及用于同步待同步数据的资源进行双向规划,使计算
引擎无需在有同步任务时就启动,防止计算引擎多次启动导致同步时间慢;且能够对每个资源池得以最大利用;另外,也可以通过对同步时间进行规划,防止短时间内同时执行大量同步任务。
附图说明
[0017]图1为一个实施例中提供的数据同步方法的应用环境图;
[0018]图2为一个实施例中数据同步方法的流程图;
[0019]图3为一个实施例中数据同步方法的架构示意图;
[0020]图4为一个实施例中数据同步装置的结构框图;
[0021]图5为一个实施例中计算机设备的内部结构框图。
具体实施方式
[0022]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0023]可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
[0024]DataX:DataX是一个开源数据集成工具,可以将不同类型的数据从一个数据源转移到另一个数据源。它支持多种数据源,例如MySQL、Oracle、HDFS等等,并且可以将数据导出到CSV、JSON、XML等格式。
[0025]MySQL:MySQL是一个关系型数据库管理系统(RDBMS),常用于存储结构化数据。在数据同步中,MySQL可以充当源数据库或目标数据库,从而实现数据的提取、转换和加载。
[0026]HDFS:Hadoop Distributed File System,Hadoop分布式文件系统(HDFS)是一个分布式文件系统,通常用于存储非结构化或半结构化数据,如日志、音频、视频等等。在数据同步中,HDFS可以充当数据的中间存储,方便数据的读写和处理。
[0027]Spark:Apache Spark是一个快速、通用的大规模数据处理引擎。它支持各种数据源和格式,包括文本、CSV、JSON、Parquet等等,并且提供了强大的数据处理和转换功能。在数据同步中,Spark可以用来读取、转换和加载数据,还可以完成复杂的数据处理任务。
[0028]Hive:Hive是一个基于Hadoop的数据仓库系统,用于支持大规模的数据存储和查询。它允许将SQL查询转换为MapReduce作业,并且能够与HDFS和其他数据源集成。在数据同步中,Hive可以用来读取和写入数据,还可以处理复杂的查询和分析任务。
[0029]Kafka:Apache Kafka是一个分布式消息传递系统,常被用作高吞吐量、可靠性和可扩展性数据管道。在数据同步中,Kafka可以用于将数据从源系统传送到目标系统,充当中间层缓存,在不同数据处理和存储系统之间实现解耦,提高了可靠性和可扩展性。
[0030]Flink:Apache Flink是一个分布式流处理框架,支持低延迟和高吞吐量数据处理。它提供了复杂事件处理、窗口计算、状态管理等丰富的流处理功能。在数据同步中,Flink可以用于实时数据处理,例如实时数据清洗、转换、聚合和计算等等,能够帮助企业更
快地做出决策并提升竞争力。
[0031]如图1所示,图1为本申请实施例提供的一种数据同步的应用环境图,如图1所示,在该应用环境中,包括计算机设备110、终端120。
[0032]计算机设备110可以是独立的物理服务器或终端,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。
[0033]终端120可以是智能手机,台式计算机,平板计算机,笔记本电脑等,这里不做具体限定。
[0034]计算机设备120可以与终端120通过网络连接,并将终端120中的数据同步至计算机设备120中;计算机设备12也可以数据在不同的数据库之间同步。
[0035]如图2所示,在一个实施例中,提出了一种数据同步方法,所述同步方法包括以下步骤:
[0036]步骤S202,获取源数据并生成待同步数据;
[0037]在本实施例中,源数据可以是来自计算机设备中不同的数据库内的数据,即离线数据,也可以是从其他端获取的在线数据;当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据同步方法,其特征在于,所述同步方法包括:获取源数据并生成待同步数据;根据所述待同步数据生成资源配置表,所述资源配置表用于表征待同步数据的来源信息、表征存储待同步数据的目标数据库信息以及表征执行待同步数据同步任务的资源池信息;根据所述资源配置表将所述待同步数据同步至目标数据库。2.根据权利要求1所述的一种数据同步方法,其特征在于,所述获取源数据并生成待同步数据包括以下步骤:利用离线数据同步工具,从源数据库中获取源数据,并将源数据转存为待同步数据;利用在线数据同步工具,从源接口中获取源数据,并将源数据转存为待同步数据。3.根据权利要求2所述的一种数据同步方法,其特征在于,所述源数据库为Mysql数据库,所述目标数据库为Hive数据库;所述离线数据同步工具为DataX,所述在线数据同步工具为Kafka和Flink。4.根据权利要求1所述的一种数据同步方法,其特征在于,所述根据待同步数据的数据量生成资源配置表包括以下步骤:提取并写入待同步数据的来源信息,包括待同步数据的来源数据库、待同步数据的名称;确定并写入待同步数据的目标数据库信息,包括待同步数据的目标数据库以及同步后的名称;规划并写入为待同步数据分配的资源池信息。5.根据权利要求1所述的一种数据同步方法,其特征在于,所述根据所述资源配置表将所述待同步数据同步至目标数据库包括以下步骤:读取所述资源配置表与待同步信息;根据所述资源配置表,得到若干同步任务,每个同步任务表征每个资源池以及该资源池所对应的待同步数据...

【专利技术属性】
技术研发人员:潘力陈泽演唐帆
申请(专利权)人:广州骏伯网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1