一种基于离线同步工具的数据采集方法、装置及储存介质制造方法及图纸

技术编号:36704580 阅读:48 留言:0更新日期:2023-03-01 09:25
本申请公开了一种基于离线同步工具的数据采集方法、装置及储存介质,用于提高数据采集效率。本申请包括:平台通过离线同步工具确定待采集数据的源数据库,并建立与所述源数据库的数据传输通道,所述离线同步工具集成在所述平台内部,所述平台还集成有任务调度器;所述平台根据所述源数据库的类型获取任务调度模板;所述平台根据所述任务调度模板及所述源数据库构建采集任务;所述平台通过所述离线同步工具及所述任务调度器执行所述采集任务;所述平台根据所述采集任务在所述数据传输通道上将所述待采集数据采集到目标数据库中。上将所述待采集数据采集到目标数据库中。上将所述待采集数据采集到目标数据库中。

【技术实现步骤摘要】
一种基于离线同步工具的数据采集方法、装置及储存介质


[0001]本申请涉及数据采集
,尤其涉及一种基于离线同步工具的数据采集方法、装置及储存介质。

技术介绍

[0002]数字化转型是指建立在数字化转换、数字化升级基础上,进一步触及公司核心业务,以新建一种商业模式为目标的高层次转型。数字化转型是开发数字化技术及支持能力以新建一个富有活力的数字化商业模式;企业在数字化转型过程中,通常面临着最直接的问题

数据采集难,即数据分散在各业务系统中,短期无法实现集中整合汇聚,数据采集汇聚过程中,通常会面对大量异构数据源,包括存储在关系型数据库、HDFS、FTP、国产数据库、云原生数据库、消息队列Kafka等数据以及通过API提供的数据。
[0003]为实现数据整合汇聚,现有技术通过大量的脚本去适配这些异构数据源达到数据的集成使用,针对每个异构数据源都配置一个或多个对应的脚本,从而通过脚本来实现多个异构数据源的汇聚,这就导致在脚本开发上需要花费大量的工作量,数据采集效率低下。

技术实现思路

[0004]为了解决上述技术问题,本申请提供了一种基于离线同步工具的数据采集方法、装置及储存介质,使得异构数据源的数据采集效率得到提高。
[0005]本申请第一方面提供了一种基于离线同步工具的数据采集方法,包括:
[0006]平台通过离线同步工具确定待采集数据的源数据库,并建立与所述源数据库的数据传输通道,所述离线同步工具集成在所述平台内部,所述平台还集成有任务调度器;
[0007]所述平台根据所述源数据库的类型获取任务调度模板;
[0008]所述平台根据所述任务调度模板及所述源数据库构建采集任务;
[0009]所述平台通过所述离线同步工具及所述任务调度器执行所述采集任务;
[0010]所述平台根据所述采集任务在所述数据传输通道上将所述待采集数据采集到目标数据库中。
[0011]可选的,所述平台根据所述任务调度模板及所述源数据库构建采集任务包括:
[0012]所述平台根据所述目标数据库获取数据转化规则;
[0013]所述平台根据所述任务调度模板、所述源数据库及所述数据转化规则构建采集任务。
[0014]可选的,在所述平台通过所述离线同步工具及所述任务调度器执行所述采集任务之前,在所述建立与所述源数据库的数据传输通道之后,所述数据采集方法还包括:
[0015]所述平台根据所述源数据库设置格式转化规则,所述格式转化规则用于将所述采集数据的数据格式转化为所述离线同步工具所支持的格式;
[0016]所述平台根据所述采集任务在所述数据传输通道上将所述待采集数据采集到目标数据库中包括:
[0017]所述平台根据所述采集任务及所述格式转化规则在所述数据传输通道上将所述待采集数据采集到目标数据库中。
[0018]可选的,所述平台根据所述采集任务在所述数据传输通道上将所述待采集数据采集到目标数据库中包括:
[0019]所述平台在所述数据传输通道上对所述待采集数据进行数据监控及数据检验,并形成日志记录。
[0020]可选的,所述平台根据所述采集任务在所述数据传输通道上将所述待采集数据采集到目标数据库中包括:
[0021]所述平台根据所述采集任务确定目标采集数据;
[0022]所述平台在所述数据传输通道上将所述目标采集数据到所述目标数据库中。
[0023]可选的,所述建立与所述源数据库的数据传输通道包括:
[0024]所述平台获取所述源数据库对应的类型连接器;
[0025]所述平台将所述类型连接器集成到所述离线同步工具中。
[0026]本申请第二方面提供了一种基于离线同步工具的数据采集装置,包括:
[0027]确定单元,用于平台通过离线同步工具确定待采集数据的源数据库,并建立与所述源数据库的数据传输通道,所述离线同步工具集成在所述平台内部,所述平台还集成有任务调度器;
[0028]获取单元,用于所述平台根据所述源数据库的类型获取任务调度模板;
[0029]构建单元,用于所述平台根据所述任务调度模板及所述源数据库构建采集任务;
[0030]执行单元,用于所述平台通过所述离线同步工具及所述任务调度器执行所述采集任务;
[0031]采集单元,用于所述平台根据所述采集任务在所述数据传输通道上将所述待采集数据采集到目标数据库中。
[0032]可选的,所述构建单元包括:
[0033]第一获取模块,用于所述平台根据所述目标数据库获取数据转化规则;
[0034]构建模块,用于所述平台根据所述任务调度模板、所述源数据库及所述数据转化规则构建采集任务。
[0035]可选的,所述数据采集装置还包括:
[0036]设置单元,用于所述平台根据所述源数据库设置格式转化规则,所述格式转化规则用于将所述采集数据的数据格式转化为所述离线同步工具所支持的格式;
[0037]所述采集单元包括:
[0038]第一采集模块,用于所述平台根据所述采集任务及所述格式转化规则在所述数据传输通道上将所述待采集数据采集到目标数据库中。
[0039]可选的,所述采集单元包括:
[0040]处理模块,用于所述平台在所述数据传输通道上对所述待采集数据进行数据监控及数据检验,并形成日志记录。
[0041]可选的,所述采集单元包括:
[0042]确定模块,用于所述平台根据所述采集任务确定目标采集数据;
[0043]第二采集模块,用于所述平台在所述数据传输通道上将所述目标采集数据到所述
目标数据库中。
[0044]可选的,所述确定单元包括:
[0045]第二获取模块,用于所述平台获取所述源数据库对应的类型连接器;
[0046]集成模块,用于所述平台将所述类型连接器集成到所述离线同步工具中。
[0047]本申请第三方面提供了一种基于离线同步工具的数据采集的装置,包括:
[0048]中央处理器,存储器,输入输出接口,有线或无线网络接口以及电源;
[0049]所述存储器为短暂存储存储器或持久存储存储器;
[0050]所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行第一方面以及第一方面的可选方式中的任意一种所述的方式。
[0051]本申请第四方面提供了一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行第一方面以及第一方面的可选方式中的任意一种所述的方式。
[0052]从以上技术方案可以看出,本申请具有以下效果:
[0053]通过在平台上集成离线同步工具及任务调度器,然后平台通过该离线同步工具确定待抽取数据的源数据库,并建立与源数据库之间的数据传输通道,接着平台根据该源数据库的类型获取任务调度模板,再根据任务调度模板及源数据库构建采集任务,最后平台通过离线同步工具及任务调度器执行该本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于离线同步工具的数据采集方法,其特征在于,包括:平台通过离线同步工具确定待采集数据的源数据库,并建立与所述源数据库的数据传输通道,所述离线同步工具集成在所述平台内部,所述平台还集成有任务调度器;所述平台根据所述源数据库的类型获取任务调度模板;所述平台根据所述任务调度模板及所述源数据库构建采集任务;所述平台通过所述离线同步工具及所述任务调度器执行所述采集任务;所述平台根据所述采集任务在所述数据传输通道上将所述待采集数据采集到目标数据库中。2.根据权利要求1所述的数据采集方法,其特征在于,所述平台根据所述任务调度模板及所述源数据库构建采集任务包括:所述平台根据所述目标数据库获取数据转化规则;所述平台根据所述任务调度模板、所述源数据库及所述数据转化规则构建采集任务。3.根据权利要求1或2所述的数据采集方法,其特征在于,在所述平台通过所述离线同步工具及所述任务调度器执行所述采集任务之前,在所述建立与所述源数据库的数据传输通道之后,所述数据采集方法还包括:所述平台根据所述源数据库设置格式转化规则,所述格式转化规则用于将所述采集数据的数据格式转化为所述离线同步工具所支持的格式;所述平台根据所述采集任务在所述数据传输通道上将所述待采集数据采集到目标数据库中包括:所述平台根据所述采集任务及所述格式转化规则在所述数据传输通道上将所述待采集数据采集到目标数据库中。4.根据权利要求1或2所述的数据采集方法,其特征在于,所述平台根据所述采集任务在所述数据传输通道上将所述待采集数据采集到目标数据库中包括:所述平台在所述数据传输通道上对所述待采集数据进行数据监控及数据检验,并形成日志记录。5.根据权利要求1或2所述的数据采集方法,其特征在于,所述平台根据所述采集任务在所述数据传输通道...

【专利技术属性】
技术研发人员:周维汪榕龚昱鸣袁公萍李宁
申请(专利权)人:中电科大数据研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1