数据同步方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:20389638 阅读:14 留言:0更新日期:2019-02-20 02:45
本申请涉及数据处理领域,并公开了一种数据同步方法、装置、计算机设备及存储介质,其中方法包括:获取待同步数据源中的多个数据表对应的数据表名;根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息;根据数据表类型确定多个所述数据表对应的同步顺序;将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息;按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。由此提高了数据的同步效率。

【技术实现步骤摘要】
数据同步方法、装置、计算机设备及存储介质
本申请涉及计算机
,尤其涉及一种数据同步方法、装置、计算机设备及存储介质。
技术介绍
目前,在大数据处理时会经常遇到各种数据的导入、导出需求,对于数据量较大的数据接入需要使用更多的资源,同时获取数据的维度也需要变小,不然数据同步会非常缓慢,同时数据会把缓冲区占进而满导致触发告警。同理在数据回导的过程中如果数据量非常大,也会导致作业执行非常缓慢。数据的同步时效影响了业务的正常使用,此外数据量的突然变化也会对数据整合作业产生很大的影响。因此在对数据进行同步时需要对数据的规模进行预测,如果数据量变化比较频繁,会导致同步作业效率降低和耗时变长,从而影响下游作业运行。由此有必要一种数据同步方式以解决上述问题。
技术实现思路
本申请提供了一种数据同步方法、装置、计算机设备及存储介质,旨在提高大数据的同步效率。本申请提供了一种数据同步方法,其包括:获取待同步数据源中的多个数据表对应的数据表名;根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息;根据数据表类型确定多个所述数据表对应的同步顺序;将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息;以及按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。本申请提供了一种数据同步装置,其包括:表名获取单元,用于获取待同步数据源中的多个数据表对应的数据表名;扫描统计单元,用于根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息;顺序确定单元,用于根据数据表类型确定多个所述数据表对应的同步顺序;资源计算单元,用于将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息;以及数据同步单元,用于按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。本申请还提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请提供的任意一项所述的数据同步方法的步骤。本申请还提供了一种计算机存储介质,其中所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行本申请提供的任意实施例所述的数据同步方法的步骤。本申请实施例提供了数据同步方法、装置、计算机设备及存储介质,通过获取待同步数据源中的多个数据表对应的数据表名;根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息;根据数据表类型确定多个所述数据表对应的同步顺序;将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息;按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。由此可见,该方法通过资源配置模型采用历史数据对待同步的数据进行资源预测以及根据数据表类型确定多个数据表的同步顺序,并按照确定的同步顺序和资源配置信息对数据表中的数据进行同步,由此提高了同步效率。附图说明为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一实施例提供的一种数据同步方法的示意流程图;图2是本申请一实施例提供的训练资源配置模型的步骤示意流程图;图3是本申请另一实施例提供的一种数据同步方法的示意流程图;图4是本申请一实施例提供的一种数据同步装置的示意性框图;图5是本申请另一实施例提供的一种数据同步装置的示意性框图;图6是本申请一实施例提供的一种计算机设备的示意性框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。请参阅图1,图1是本申请一实施例提供的一种数据同步方法的示意流程图。该方法可应用于服务器中,如图1所示,该数据同步方法包括步骤S101~S105。S101、获取待同步数据源中的多个数据表对应的数据表名。其中,所述待同步数据源为需要进行数据同步的数据源,该数据源比如为DB数据库,该DB数据库包括多个数据表,每个数据表均对应一个不同的数据表名,用于标记该数据表。具体地,服务器获取终端发送的待同步数据源中的多个数据表对应的数据表名,其中,所述多个数据表为均需要进行数据同步的表。在一实施例中,在步骤S101之前,还包括训练资源配置模型的步骤,如图2所示,该步骤具体包括以下内容:S1011、获取历史数据表以及所述历史数据表对应的作业同步记录信息作为样本数据;S1012、基于逻辑回归算法,根据所述样本数据进行模型训练以得到预先训练的资源配置模型。具体地,服务器获取历史数据表并对该历史数据表进行解析以获取所述历史数据表的数据表信息,该数据表信息包括数据量和字段信息等。同时扫描所述历史数据表中的作业同步记录信息,该作业同步记录信息记录有同步该历史数据表所需的资源配置信息,将该数据表的数据表信息和作业同步记录信息作为样本数据。其中,所述历史数据表可以用户通过终端选定的数据表,并将数据表的标识发送至服务器,服务器根据所述标识获取所述标识对应的数据表作为历史数据表。服务器可以根据该样本数据构建特征向量,其中特征向量中的数值与样本数据中的特征对应。将所述特征向量作为输入,以最优资源配置为目标作为输出进行模型训练以得到资源配置模型,并将经过训练得到资源配置模型作为预先训练的资源配置模型进行保存。S102、根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息。具体地,根据所述数据表名扫描相应的数据库以获取相应的数据表以及数据中的数据,该数据表为需要进行数据同步的表,解析该数据表以统计每个数据表的数据量和字段信息作为数据表信息,该数据量可以用字段个数或字段行数进行表示,该字段信息为数据表的字段类型和字段内容。S103、根据数据表类型确定多个所述数据表对应的同步顺序。具体地,根据数据表的名称、格式和注释信息等确定所述数据表的类型信息,类型信息为数据表的分类类型,该分类类型比如为业务表、日志表或审计表等。其中。这些分类类型本文档来自技高网...

【技术保护点】
1.一种数据同步方法,其特征在于,包括:获取待同步数据源中的多个数据表对应的数据表名;根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息;根据数据表类型确定多个所述数据表对应的同步顺序;将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息;以及按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。

【技术特征摘要】
1.一种数据同步方法,其特征在于,包括:获取待同步数据源中的多个数据表对应的数据表名;根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息;根据数据表类型确定多个所述数据表对应的同步顺序;将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息;以及按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。2.根据权利要求1所述的数据同步方法,其特征在于,所述根据数据表类型确定多个所述数据表对应的同步顺序之前,还包括:根据所述数据表名获取每个所述数据表对应的备注信息;以及识别所述备注信息中的关键字,并根据识别到的关键字确定所述数据表对应的数据表类型。3.根据权利要求2所述的数据同步方法,其特征在于,所述根据数据表类型确定多个所述数据表对应的同步顺序,包括:根据所述数据表对应的数据表类型按照预设类型同步规则确定多个所述数据表的同步顺序。4.根据权利要求1所述的数据同步方法,其特征在于,所述获取待同步数据源中的多个数据表对应的数据表名之前,还包括:获取历史数据表以及所述历史数据表对应的作业同步记录信息作为样本数据;基于逻辑回归算法,根据所述样本数据进行模型训练以得到预先训练的资源配置模型。5.根据权利要求1所述的数据同步方法,其特征在于,所述按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步,包括:按照所述同步顺序将所述资源配置信息输入至预设同步工具,以使所述预设同步工具根据所述资源配置信息为所述数据表分配相应的硬件资源并对所述数据表中的数...

【专利技术属性】
技术研发人员:陈健鹏林林
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1