基于接口的数据采集方法、装置、设备及存储介质制造方法及图纸

技术编号:29097026 阅读:14 留言:0更新日期:2021-06-30 10:07
本发明专利技术涉及大数据技术领域,公开了一种基于接口的数据采集方法、装置、设备及存储介质。所述方法包括:若当前满足数据采集作业的触发条件,则读取触发条件对应的数据采集作业,其中,数据采集作业包括数据采集作业参数、源数据库接口参数、目的数据库参数;根据数据采集作业参数,生成数据采集接口,并通过源数据库接口参数,建立与源数据库之间的数据连接;接收从源数据库采集的目标数据并进行结构化处理,得到结构化目标数据;根据预置采集数据存储规则和目的数据库参数,生成结构化目标数据对应的批量数据库操作语句并执行,以将结构化目标数据存储至对应目的数据库。本发明专利技术能灵活地配置数据采集接口,从而进行高效的数据采集。集。集。

【技术实现步骤摘要】
基于接口的数据采集方法、装置、设备及存储介质


[0001]本专利技术涉及大数据
,尤其涉及一种基于接口的数据采集方法、装置、设备及存储介质。

技术介绍

[0002]随着大数据的发展,数据即是价值,在做数据分析和数据挖掘时,都需要进行不同目的的数据采集,而数据采集的方式一般是通过接口的形式访问数据源数据库,从而获得源数据库的数据。
[0003]目前基于接口的数据采集方式过于简单,而日益复杂的业务场景要求数据采集作业需要具备多种功能,如令牌器、断点续传、定时触发、内置字段生成等,如今的数据采集方式不能同时对这些需求进行灵活处理,使得数据采集作业的效率低下,无法满足业务需求。

技术实现思路

[0004]本专利技术的主要目的在于解决基于接口的数据采集方式功能单一且灵活性低的技术问题。
[0005]本专利技术第一方面提供了一种基于接口的数据采集方法,包括:
[0006]检测当前是否满足数据采集作业的触发条件;
[0007]若满足数据采集作业的触发条件,则读取所述触发条件对应的数据采集作业,其中,所述数据采集作业包括数据采集作业参数、源数据库接口参数、目的数据库参数;
[0008]根据所述数据采集作业参数,生成数据采集接口,并通过所述源数据库接口参数,建立所述数据采集接口与预置源数据库之间的数据连接;
[0009]接收所述数据采集接口从所述源数据库采集的目标数据,并对所述目标数据进行结构化处理,得到结构化目标数据;
[0010]根据预置采集数据存储规则和所述目的数据库参数,生成所述结构化目标数据对应的批量数据库操作语句并执行,以将所述结构化目标数据存储至对应目的数据库。
[0011]可选的,在本专利技术第一方面的第一种实现方式中,所述检测当前是否满足数据采集作业的触发条件包括:
[0012]判断当前数据采集作业是否包含令牌认证任务;
[0013]若包含令牌认证任务,则调用预置令牌生成机制,生成所述数据采集作业的令牌器;
[0014]所述根据所述数据采集作业参数,生成数据采集接口包括:
[0015]根据所述数据采集作业的令牌器,生成带令牌的数据采集接口。
[0016]可选的,在本专利技术第一方面的第二种实现方式中,所述检测当前是否满足数据采集作业的触发条件包括:
[0017]判断所述数据采集作业是否采用增量采集方式;
[0018]若采用增量采集方式,则读取上一轮数据采集作业对应的数据采集日志文件,并
判断所述数据采集日志文件中是否存在采集断点记录;
[0019]若存在采集断点记录,则提取所述采集断点记录中的断点所在页码;
[0020]所述根据所述数据采集作业参数,生成数据采集接口包括:
[0021]根据所述断点所在页码,生成从所述断点所在页码开始的增量采集的数据采集接口。
[0022]可选的,在本专利技术第一方面的第三种实现方式中,所述接收所述数据采集接口从所述源数据库采集的目标数据,并对所述目标数据进行结构化处理,得到结构化目标数据包括:
[0023]接收所述数据采集接口从所述源数据库采集的目标数据,并采用二分法计算所述目标数据中各字段的字段长度;
[0024]分别判断各所述字段长度是否超过预置阈值;
[0025]若超过预置阈值,则将所述目标数据保存到本地文件中,并以预置段落数分段读取所述本地文件中的数据,得到多段分段数据;
[0026]依次解析各所述分段数据,得到结构化目标数据。
[0027]可选的,在本专利技术第一方面的第四种实现方式中,所述根据预置采集数据存储规则和所述目的数据库参数,生成所述结构化目标数据对应的批量数据库操作语句并执行包括:
[0028]判断所述数据采集作业是否包括内置字段生成规则;
[0029]若包括内置字段生成规则,则根据所述内置字段生成规则,生成第一数据库操作语句,其中,所述第一数据库操作语句用于将内置字段插入目的数据库;
[0030]根据所述源数据库与所述目的数据库的预置字段对应关系,生成第二数据库操作语句,其中,所述第二数据库操作语句用于将源数据库对应字段的数据插入目的数据库;
[0031]根据所述目的数据库的主键信息,判断所述结构化目标数据是否存在于所述目的数据库中;
[0032]若所述结构化目标数据存在于所述目的数据库中,则生成第三数据库操作语句,否则生成第四数据库操作语句,其中,所述第三数据库操作语句用于将所述结构化目标数据插入所述目的数据库,所述第四数据库操作语句用于更新所述目的数据库中与所述主键信息对应的数据;
[0033]根据所述目的数据库的数据库类型以及所述第一数据库操作语句、所述第二数据库操作语句、所述第三数据库操作语句、所述第四数据库操作语句,生成批量数据库操作语句并执行。
[0034]可选的,在本专利技术第一方面的第五种实现方式中,在所述根据预置采集数据存储规则和所述目的数据库参数,生成所述结构化目标数据对应的批量数据库操作语句并执行之后,还包括:
[0035]根据所述批量数据库操作语句的执行结果,判断所述数据采集作业是否完成;
[0036]若所述数据采集作业完成,则停止数据采集,否则将所述执行结果对应的断点数据写入所述日志文件的采集断点记录中,其中,所述断点数据包括所述断点所在页码。
[0037]本专利技术第二方面提供了一种基于接口的数据采集装置,包括:
[0038]检测模块,用于检测当前是否满足数据采集作业的触发条件;
[0039]读取模块,用于若满足数据采集作业的触发条件,则读取所述触发条件对应的数据采集作业,其中,所述数据采集作业包括数据采集作业参数、源数据库接口参数、目的数据库参数;
[0040]连接模块,用于根据所述数据采集作业参数,生成数据采集接口,并通过所述源数据库接口参数,建立所述数据采集接口与预置源数据库之间的数据连接;
[0041]接收模块,用于接收所述数据采集接口从所述源数据库采集的目标数据,并对所述目标数据进行结构化处理,得到结构化目标数据;
[0042]存储模块,用于根据预置采集数据存储规则和所述目的数据库参数,生成所述结构化目标数据对应的批量数据库操作语句并执行,以将所述结构化目标数据存储至对应目的数据库。
[0043]可选的,在本专利技术第二方面的第一种实现方式中,所述检测模块用于:
[0044]判断当前数据采集作业是否包含令牌认证任务;
[0045]若包含令牌认证任务,则调用预置令牌生成机制,生成所述数据采集作业的令牌器;
[0046]所述连接模块用于:
[0047]根据所述数据采集作业的令牌器,生成带令牌的数据采集接口。
[0048]可选的,在本专利技术第二方面的第二种实现方式中,所述检测模块用于:
[0049]判断所述数据采集作业是否采用增量采集方式;
[0050]若采用增量采集方式,则读取上一轮数据采集作业对应的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于接口的数据采集方法,其特征在于,所述基于接口的数据采集方法包括:检测当前是否满足数据采集作业的触发条件;若满足数据采集作业的触发条件,则读取所述触发条件对应的数据采集作业,其中,所述数据采集作业包括数据采集作业参数、源数据库接口参数、目的数据库参数;根据所述数据采集作业参数,生成数据采集接口,并通过所述源数据库接口参数,建立所述数据采集接口与预置源数据库之间的数据连接;接收所述数据采集接口从所述源数据库采集的目标数据,并对所述目标数据进行结构化处理,得到结构化目标数据;根据预置采集数据存储规则和所述目的数据库参数,生成所述结构化目标数据对应的批量数据库操作语句并执行,以将所述结构化目标数据存储至对应目的数据库。2.根据权利要求1所述的基于接口的数据采集方法,其特征在于,所述检测当前是否满足数据采集作业的触发条件包括:判断当前数据采集作业是否包含令牌认证任务;若包含令牌认证任务,则调用预置令牌生成机制,生成所述数据采集作业的令牌器;所述根据所述数据采集作业参数,生成数据采集接口包括:根据所述数据采集作业的令牌器,生成带令牌的数据采集接口。3.根据权利要求1所述的基于接口的数据采集方法,其特征在于,所述检测当前是否满足数据采集作业的触发条件包括:判断所述数据采集作业是否采用增量采集方式;若采用增量采集方式,则读取上一轮数据采集作业对应的数据采集日志文件,并判断所述数据采集日志文件中是否存在采集断点记录;若存在采集断点记录,则提取所述采集断点记录中的断点所在页码;所述根据所述数据采集作业参数,生成数据采集接口包括:根据所述断点所在页码,生成从所述断点所在页码开始的增量采集的数据采集接口。4.根据权利要求1所述的基于接口的数据采集方法,其特征在于,所述接收所述数据采集接口从所述源数据库采集的目标数据,并对所述目标数据进行结构化处理,得到结构化目标数据包括:接收所述数据采集接口从所述源数据库采集的目标数据,并采用二分法计算所述目标数据中各字段的字段长度;分别判断各所述字段长度是否超过预置阈值;若超过预置阈值,则将所述目标数据保存到本地文件中,并以预置段落数分段读取所述本地文件中的数据,得到多段分段数据;依次解析各所述分段数据,得到结构化目标数据。5.根据权利要求1所述的基于接口的数据采集方法,其特征在于,所述根据预置采集数据存储规则和所述目的数据库参数,生成所述结构化目标数据对应的批量数据库操作语句并执行包括:判断所述数据采集作业是否包括内置字段生成规则;若包括内置字段生成规则,则根据所述内置字段生成规则,生成第一数据库操作语句,其中,所述第一数据库操作语句用于将内置字段插入目的数据库;
根据所述源数据库与所述目的数据库的预置字段对应关系,生成第二数据库操作语句,其中,所述第二数据库操作语句用于将源数据库对应字段的数据插入目的数据库;根据所述目的数据库的主键信息,判断所述结构化目标数...

【专利技术属性】
技术研发人员:郭钊铭
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1