一种应用大数据的异构数据同步方法及存储介质技术

技术编号:34393513 阅读:24 留言:0更新日期:2022-08-03 21:24
本发明专利技术涉及异构数据处理技术领域,尤其涉及一种应用大数据的异构数据同步方法及存储介质,其包括存储介质以及同步方法,其包括如下步骤:步骤1.自定义配置数据源用户信息;步骤2.封装插件数据源;步骤3.传送参数表名;步骤4.数据过滤:步骤5.自定义分区数;步骤6.进行插入方式定义;步骤7.启动脚本;步骤8.反射获取main方法;步骤9.执行封装数据;步骤10.启动对应的App;步骤11.反馈作业结束后,系统申请资源;步骤12.获取资源后,创建executor对象进程;步骤13.分布式分配任务传输到随机机器;步骤14.调用查看Log日志;步骤15.结束运行。本发明专利技术提升了同步性能以及企业生产服务的效率。发明专利技术提升了同步性能以及企业生产服务的效率。发明专利技术提升了同步性能以及企业生产服务的效率。

【技术实现步骤摘要】
一种应用大数据的异构数据同步方法及存储介质


[0001]本专利技术涉及异构数据处理
,尤其涉及一种应用大数据的异构数据同步方法及存储介质。

技术介绍

[0002]本部分中的陈述仅提供与本公开有关的背景信息并且不构成现有技术。
[0003]大数据这个名词越来越多的被人提起,在大数据技术发展的需要下,各种组件和新技术不断加码,使其海量而又多源的数据被用来发挥其价值,众所周知,业务的数据来源总是多元化的,基于此,对数据同步的方法以及数据存储方法提出了较高的要求,其中数据存储是以某种格式记录在计算机内部或外部存储介质上;目前技术中数据存储要命名,这种命名要反映信息特征的组成含义,数据存储反映系统中静止的数据,表现出静态数据的特征。在数据存储的过程中必定有数据同步过程,数据同步是一种将信息进行备份的过程,很多情况下数据的同步会在相同架构的环境下进行,例如安卓手机的信息可以云同步到安卓的云空间中,但是无法同步到非安卓的架构中。
[0004]目前公开的技术中,普遍依旧在统一架构下进行数据的同步,这主要是因为不同架构下的代码处理逻辑、程序的运行条件不同,因此跨架构的同步实现具有较大的技术难度,部分已知的技术,追其本质也是经过了中间架构的转换过渡进行的跨架构数据同步,并不是实际意义上的直接数据同步。

技术实现思路

[0005]专利技术人通过研究发现:跨架构的数据同步存在核心的技术难点的归结在于目前公开的数据同步方法均会存在同步周期长、数据在同步过程中容易出现数据丢失或者数据重复的问题,同时因为数据的繁杂还会导致系统待机,进而出现数据库奔溃的情况。
[0006]本公开的目的在于提供一种应用大数据的异构数据同步方法及存储介质,通过步骤1

步骤15的处理逻辑来解决现有技术中同架构下的异构数据同步周期长的技术问题;同时也解决了异构数据同步时数据容易丢失与重复的技术问题据。
[0007]本公开的一个方面,提供一种应用大数据的异构数据同步方法,包括如下步骤:步骤1.自定义配置数据源用户信息,进行数据同步处理;步骤2.封装插件数据源,优化处理流程;步骤3.传送参数表名,系统传入需要配置的表名至数据同步页面,其中包括库名;步骤4.数据过滤,自定义数据类别,按需筛选过滤;步骤5.过滤后的数据信息按照用户反馈进行自定义分区数;步骤6.自定义分区后的数据按照用户反馈进行插入方式定义;步骤7.启动脚本,将配置好的脚本提交至IDC集群;步骤8.程序反射获取main方法,同时进行执行main方法;步骤9.执行完成main方法后封装数据,发送控制命令;步骤10.接收控制命令后,根据用户选择启动对应的Application,进行反馈作业操作;步骤11.反馈作业结束后,系统申请资源,向IDC集群申请资源后进行运行执行;步骤12.获取资源后,创建需要的executor对象进程;步骤13.分布式分配任务传输到随机机器;步骤14.调用查看Log日志;步骤15.结束同
步运行状态。
[0008]专利技术人在平时工作过程中,发现同种架构下的数据同步方法普遍存在数据同步较慢且同步结果不理想的情况,基于此,专利技术人认为提供一种更简单,更高效,加快数据处理能力的方法对于各类企业的业务推动具有重要意义,本公开的实施例在原有需要数据同步代码基础上改进为可配置化的方法进行数据同步,使得异构数据同步更加高效,简单并且周期短。
[0009]本公开的一些实施例中,所述步骤1具体包括如下内容:自定义配置数据库源信息用于表的数据同步使用,配置程序提交所需要的内存大小,核心数,提交模式,核心内存的配置信息。
[0010]本公开的一些实施例中,所述步骤2具体包括如下内容:基于md5摘要算法对数据校验,在数据校验完成后,进而进行基于潜在语义分析算法进行对数据进行权重分析。
[0011]本公开的一些实施例中,所述步骤5具体包括如下内容:系统进行定义目标表的分区数,如果不需要定义分区数,则系统默认为1个分区数。
[0012]本公开的一些实施例中,所述步骤6具体包括一下内容:配置追加,覆盖以及动态插入方式,其中动态插入默认按照数据来进行确定分区数进行数据插入。
[0013]本公开的一些实施例中,所述步骤9具体为以下内容:封装并发送指令app至机器,接着调入弹性分布式数据集转换形成DAG。
[0014]本公开的一些实施例中,所述步骤12具体为一下内容:启动EB并且创建需要的executor对象进程,这里被需要的对象executor的标准为1个以上,根据分区数生成对应的executor数。
[0015]本公开的一些实施例中,所述步骤14具体为以下内容:Log日志进行查看任务运行情况,预知信息,以及获取程序报错原因。
[0016]本公开的另一个方面,提供一种计算机可读存储介质,存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1至8任一项所述的一种应用大数据的异构数据同步方法。
[0017]本公开与目前公开的技术相比,具有如下的优点和有益效果:本公开同步方法过程简单,全程可以灵活的进行,无需开发,并且可以进行扩展,通过基于内存计算的大数据并行计算框架大大的提升了性能,支持各种算法和算子的交互,提升了企业生产服务的效率。
附图说明
[0018]图1是本专利技术的同步方法的流程图。
具体实施方式
[0019]请参考说明附图1,本实施例提供了一种应用大数据的异构数据同步方法及存储介质,该应用大数据的异构数据同步方法及存储介质已经处于实际测试使用阶段。
[0020]实施例
[0021]包括如下步骤:步骤1.自定义配置数据源用户信息,进行数据同步处理;步骤2.封装插件数据源,优化处理流程;步骤3.传送参数表名,系统传入需要配置的表名至数据同步
页面,其中包括库名;步骤4.数据过滤,自定义数据类别,按需筛选过滤;步骤5.过滤后的数据信息按照用户反馈进行自定义分区数;步骤6.自定义分区后的数据按照用户反馈进行插入方式定义;步骤7.启动脚本,将配置好的脚本提交至IDC集群;步骤8.程序反射获取main方法,同时进行执行main方法;步骤9.执行完成main方法后封装数据,发送控制命令;步骤10.接收控制命令后,根据用户选择启动对应的Application,进行反馈作业操作;步骤11.反馈作业结束后,系统申请资源,向IDC集群申请资源后进行运行执行;步骤12.获取资源后,创建需要的executor对象进程;步骤13.分布式分配任务传输到随机机器;步骤14.调用查看Log日志;步骤15.结束同步运行状态。
[0022]其中,技术实现的具体步骤为:步骤1:自定义配置数据库源信息用于表的数据同步使用,配置程序提交所需要的内存大小,核心数,提交模式,核心内存等等需要的配置信息。需要说明的是,此程序为持久化数定义了几种不同的机制,用不同的storage level表示,cache将所有的row对象存储为未序列化的java对象,当程序预计内存不够存放本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用大数据的异构数据同步方法,其特征在于,包括如下步骤:步骤1.自定义配置数据源用户信息,进行数据同步处理;步骤2.封装插件数据源,优化处理流程;步骤3.传送参数表名,系统传入需要配置的表名至数据同步页面,其中包括库名;步骤4.数据过滤,自定义数据类别,按需筛选过滤;步骤5.过滤后的数据信息按照用户反馈进行自定义分区数;步骤6.自定义分区后的数据按照用户反馈进行插入方式定义;步骤7.启动脚本,将配置好的脚本提交至IDC集群;步骤8.程序反射获取main方法,同时进行执行main方法;步骤9.执行完成main方法后封装数据,发送控制命令;步骤10.接收控制命令后,根据用户选择启动对应的Application,进行反馈作业操作;步骤11.反馈作业结束后,系统申请资源,向IDC集群申请资源后进行运行执行;步骤12.获取资源后,创建需要的executor对象进程;步骤13.分布式分配任务传输到随机机器;步骤14.调用查看Log日志;步骤15.结束同步运行状态。2.根据权利要求1所述的一种应用大数据的异构数据同步方法,其特征在于,所述步骤1具体包括如下内容:自定义配置数据库源信息用于表的数据同步使用,配置程序提交所需要的内存大小,核心数,提交模式,核心内存的配置信息。3.根据权利要求1所述的一种应用大数据的异构数据同步方法,其特征在于,所述步骤2具体包括如下内容:基于md...

【专利技术属性】
技术研发人员:洪理斌张跃宓建栋
申请(专利权)人:杭州仟金顶信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1