数据采集方法、装置、服务器及存储介质制造方法及图纸

技术编号:20916843 阅读:28 留言:0更新日期:2019-04-20 09:45
本发明专利技术公开了一种数据采集方法、装置、服务器及存储介质,该方法包括获取当前的数据采集任务,其中,所述数据采集任务中至少包括任务类型和待采集数据的数据类型;从预先配置的URL模板库中确定与所述任务类型和数据类型相匹配的当前URL,其中,所述URL模板库中配置有不同类型的数据在数据采集过程中与不同任务类型所对应的URL;按照所述当前URL执行所述当前的数据采集任务。以实现对多种数据类型进行采集、跟踪和管理。

Data Acquisition Method, Device, Server and Storage Media

The invention discloses a data acquisition method, device, server and storage medium, which includes acquiring the current data acquisition task, in which the data acquisition task includes at least the task type and the data type to be collected; the current URL matching the task type and the data type is determined from the pre-configured URL template library, in which the URL model is used. The board library is equipped with URLs corresponding to different types of data in the process of data acquisition, and the current data acquisition tasks are executed according to the current URLs. In order to realize the collection, tracking and management of various data types.

【技术实现步骤摘要】
数据采集方法、装置、服务器及存储介质
本专利技术实施例涉及数据采集
,尤其涉及一种数据采集方法、装置、服务器及存储介质。
技术介绍
随着大数据时代的来临,对数据采集方法的多样性、可监控性有了更高的要求。传统数据采集方法,多数针对一种服务器平台获取数据,仅支持某一种类型的数据源的采集,这使得数据采集方法的应用受到限制。并且传统数据采集方法多数从数据源中获取数据并直接存储到目标路径下,这使得数据采集的中间过程难以跟踪和管理。
技术实现思路
本专利技术提供一种数据采集方法、装置、服务器及存储介质,以实现对多种数据类型进行采集、跟踪和管理。第一方面,本专利技术实施例提供了一种数据采集方法,该方法包括:获取当前的数据采集任务,其中,数据采集任务中至少包括任务类型和待采集数据的数据类型;从预先配置的URL模板库中确定与任务类型和数据类型相匹配的当前URL,其中,URL模板库中配置有不同类型的数据在数据采集过程中与不同任务类型所对应的URL;按照当前URL执行所述当前的数据采集任务。第二方面,本专利技术实施例还提供了一种数据采集装置,该装置包括:任务获取模块,用于获取当前的数据采集任务,其中,数据采集任务中至少包括任务类型和待采集数据的数据类型;模板确定模块,用于从预先配置的URL模板库中确定与任务类型和数据类型相匹配的当前URL,其中,URL模板库中配置有不同类型的数据在数据采集过程中与不同任务类型所对应的URL;任务执行模块,用于按照当前URL执行所述当前的数据采集任务。第三方面,本专利技术实施例还提供了一种服务器,该服务器包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本专利技术任一实施例所述的数据采集方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例所述的数据采集方法。本专利技术通过预设URL模板,将数据源路径和存储路径都采用URL模板的形式表达出来,并且URL模板的设置能够自适应多种数据类型,解决普通数据采集系统支持类型单一的问题,实现了对多种数据类型的采集、跟踪和管理。附图说明图1A是本专利技术实施例一中的数据采集方法流程图;图1B是本专利技术实施例一中的基于数据流向的URL流程图;图2是本专利技术实施例二中的数据采集任务状态迁移图;图3是本专利技术实施例三中的数据采集装置的模块图;图4是本专利技术实施例四中的服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1A为本专利技术实施例一提供的数据采集方法的流程图,本实施例可适用于远距离跨数据中心的数据采集的情况,该方法可以由数据采集装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成在服务器上。所述方法具体包括如下步骤:S110、获取当前的数据采集任务,其中,所述数据采集任务中至少包括任务类型和待采集数据的数据类型;其中,数据采集的任务类型例如包括数据抽取任务、数据搬迁任务、数据载入任务,这些数据采集任务可以按触发方式分为立即执行任务和定时处理任务。对于立即处理任务,数据采集系统的相应模块检测到数据便会立即执行,而定时处理任务是通过轮询采集任务表获取当前的数据采集任务,其中,采集任务表用于记载不同任务类型的数据采集任务。其中,待采集数据的数据类型包括消息队列、接口数据流、数据库和文件等多种类型,其中数据库包括oracle、mysql、mongodb等多种类型。S120、从预先配置的URL模板库中确定与所述任务类型和数据类型相匹配的当前URL,其中,所述URL模板库中配置有不同类型的数据在数据采集过程中与不同任务类型所对应的URL。其中,URL模板库包含预先配置的多种URL模板,这些模板按照一定的规则进行配置。示例性地,URL模板按如下规则进行定义,“类型关键字://服务器地址:服务器端口/关键访问字?参数”其中类型关键字包括:oracle、mysql、mongodb、hbase、hive、kafk、hdfs、sftp、file等。参数信息包括:认证信息、列信息、行信息。其中认证信息主要包括用户名和密码,如username=xxx&password=yy;列信息主要包括字段字符串,如field=f1,f2,f3,f4...;行信息主要包括offset和rowcount,如limit=offset,rowcount。若没有相应的参数信息,则参数可设为空。以关键字类型为oracle为例,其存储路径可设置为oracle://server-address:port/sid?username=xxx&password=yyyy&field=f1,f2,f3,f4。具体地,根据数据类型,可以确定出URL模板的类型关键字,根据任务类型可以确定相应的服务器端口、参数等。那么,根据S110获取的当前数据采集任务,便可以从预先配置的URL模板库中确定与所述任务类型和数据类型相匹配的当前URL。进一步地,URL模板库中存储的URL包括数据源URL、中间URL和目标URL;其中,数据源URL表示待抽取数据的数据源地址;目标URL表示待载入数据的目标地址;中间URL表示在数据存储在目标地址之前待搬迁数据的存储地址。进一步地,URL模板中还包括临时URL,该临时URL表示在数据采集过程中的中间环节所需的临时存储地址。具体地,数据源URL是数据采集的源头;目标URL是数据存储的目的地;中间URL是数据采集的中间环节,可以选择性进行配置;临时URL是数据采集过程中的暂时存储目录,相关模块在数据迁移后会立即删除,生命周期较短,仅做数据记录使用。图1B为本专利技术实施例一提供的一种基于数据流向的URL流程图,显示了数据从数据源URL到目标URL的过程。如图1B所示,从数据源URL中获取数据,对于大量的数据,需要对数据打包,打包数据可以存储到临时URL中,当然,临时URL中存储的数据不止于此,然后,对数据进行加密处理,加密后的数据存储到中间URL中,再对数据进行解密,解密过程的中间操作可以存储在临时URL中,解密后的数据存储到目标URL中。示例性地,将数据中心A点的数据采集到数据中心C处,若数据中心A和数据中心C距离较远,且中间跨至少一个数据中心,那么,可以将数据中心A的数据采集到数据中心B处,再从数据中心B处采集到数据中心C处,其中,数据中心B在数据中心A和数据中心C之间。实现数据从数据中心A到数据中心B,再到数据中心C的传输,需要进行URL配置才能实现数据采集的自动化处理,此时数据中心A的数据为数据源,数据中心B为中间存储地址,数据中心C为目标存储地址,依次配置为数据源URL、中间URL、目标URL。其中,URL的配置方法在实施例1中已有详细说明。S130、按照所述当前URL执行所述当前的数据采集任务。具体地,从步骤S120中可以得到不同任务类型所对应的URL,即可以得到数据源URL、临时URL、中间URL和目标URL,数据采集系统便按照当前URL执行当本文档来自技高网...

【技术保护点】
1.一种数据采集方法,其特征在于,包括:获取当前的数据采集任务,其中,所述数据采集任务中至少包括任务类型和待采集数据的数据类型;从预先配置的URL模板库中确定与所述任务类型和数据类型相匹配的当前URL,其中,所述URL模板库中配置有不同类型的数据在数据采集过程中与不同任务类型所对应的URL;按照所述当前URL执行所述当前的数据采集任务。

【技术特征摘要】
1.一种数据采集方法,其特征在于,包括:获取当前的数据采集任务,其中,所述数据采集任务中至少包括任务类型和待采集数据的数据类型;从预先配置的URL模板库中确定与所述任务类型和数据类型相匹配的当前URL,其中,所述URL模板库中配置有不同类型的数据在数据采集过程中与不同任务类型所对应的URL;按照所述当前URL执行所述当前的数据采集任务。2.根据权利要求1所述的方法,其特征在于,所述任务类型包括抽取、搬迁和载入:相应的,所述URL模板库中存储的URL包括数据源URL、中间URL和目标URL;其中,所述数据源URL表示待抽取数据的数据源地址;所述目标URL表示待载入数据的目标地址;所述中间URL表示在数据存储在所述目标地址之前待搬迁数据的存储地址。3.根据权利要求2所述的方法,其特征在于,所述URL模板中还包括临时URL,该临时URL表示在数据采集过程中的中间环节所需的临时存储地址。4.根据权利要求1-3中任一所述的方法,其特征在于,所述获取当前的数据采集任务,包括:通过轮询采集任务表获取当前的数据采集任务,其中,所述采集任务表用于记载不同任务类型的数据采集任务。5.根据权利要求4所述的方法,其特征在于,所述采集任务表中包括不同任务类型对应的立即处理任务和定时处理任务。6.根据权利要求1所述的方法,其特征在于,所述数据采集任务的执行过程是基于状态机技术实现。7.一种数据采集装置,其特征在于,包括:任务获取模块,用于获取当前的数据采集任务,其中,所述数据采集任务中至少包括任务类型和待采集数据的数据类型;模板确定模块,用于从预先配置的URL模板库中确定与所述...

【专利技术属性】
技术研发人员:杨良志白琳汪志新丁德平张传明
申请(专利权)人:彩讯科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1