一种数据采集方法、装置、电子设备及存储介质制造方法及图纸

技术编号:21247150 阅读:23 留言:0更新日期:2019-06-01 07:28
本发明专利技术实施例提供了一种数据采集方法、装置、电子设备及存储介质,所述方法包括:确定数据采集针对的目标网站;从预先制定的采集规则中,确定所述目标网站对应的目标采集规则;基于预先设置的功能组件及目标采集规则完成数据采集。由于无需人工针对每一网站编写一套对应的采集代码,只需要预先设置数据采集过程中的功能组件,针对不同的网站制定的采集规则,就可以对各个网站进行数据采集,大大提高了开发速度和数据采集效率。

A Data Acquisition Method, Device, Electronic Equipment and Storage Media

The embodiment of the present invention provides a data acquisition method, device, electronic equipment and storage medium. The method includes: determining the target website for data acquisition; determining the target acquisition rules corresponding to the target website from the pre-established acquisition rules; and completing data acquisition based on the pre-set functional components and target acquisition rules. Because there is no need to manually write a set of corresponding acquisition code for each website, only need to pre-set the functional components in the process of data acquisition, according to the acquisition rules formulated for different websites, data acquisition can be carried out for each website, greatly improving the development speed and data acquisition efficiency.

【技术实现步骤摘要】
一种数据采集方法、装置、电子设备及存储介质
本专利技术涉及数据处理
,特别是涉及一种数据采集方法、装置、电子设备及存储介质。
技术介绍
在当前的网络时代,很用场景都需要进行数据采集,例如,构建知识图谱之前需要在各个网站采集大量数据;测评应用程序的使用状况需要采集大量用户使用行为数据等。由于各个网站的架构、协议等均存在差别,所以在进行数据采集时,需要编程人员针对每一个需要进行数据采集的网站编写一套对应的采集代码,采集代码之间不能通用。例如,在采集知识图谱构建所需的数据时,通常采用爬虫技术从各个网站爬取数据。爬虫通常主要包括发起请求和数据解析这两个部分。所以在进行数据采集时,便需要编程人员针对每一个需要进行数据采集的网站,根据爬虫的过程编写一套对应的采集代码,这样会导致开发速度很慢,数据采集效率低。
技术实现思路
本专利技术实施例的目的在于提供一种数据采集方法、装置、电子设备及存储介质,以提高开发速度和数据采集效率。具体技术方案如下:第一方面,本专利技术实施例提供了一种数据采集方法,所述方法包括:确定数据采集针对的目标网站;从预先制定的采集规则中,确定所述目标网站对应的目标采集规则;调用基于预先设置的功能组件及所述目标采集规则完成数据采集。可选的,所述采集规则的生成方式,包括:对各个网站的网页进行解析,得到解析结果;根据各个网站的解析结果,对预先获取的通用配置文件进行编写,得到各个网站对应的采集规则。可选的,在所述根据各个网站的解析结果,对预先获取的通用配置文件进行编写,得到各个网站对应的采集规则的步骤之前,所述方法还包括:将所确定的采集规则确定为所述目标网站对应的目标采集规则。可选的,所述功能组件为多个,所述采集规则与所述功能组件唯一对应;所述基于预先设置的功能组件及所述目标采集规则完成数据采集的步骤,包括:按照数据采集的流程,在执行每一个流程时调用预先设置的功能组件发起相应的功能,并基于对应的目标采集规则完成该功能,直到数据采集完成。可选的,所述功能组件包括:发起网络请求功能组件、链接提取功能组件、数据特征提取功能组件、数据清洗功能组件、数据核查去重功能组件及数据存储功能组件。可选的,所述功能组件的生成方式,包括:根据预设规则将数据采集流程划分为多个通用子流程;根据所述多个通用子流程的代码逻辑,利用编程语言生成所述多个通用子流程分别对应的代码;将所生成的代码分别封装为相应的功能组件。第二方面,本专利技术实施例提供了一种数据采集装置,所述装置包括:目标网站确定模块,用于确定数据采集针对的目标网站;采集规则确定模块,用于从通过采集规则生成模块预先制定的采集规则中,确定所述目标网站对应的目标采集规则;数据采集模块,用于基于通过功能组件生成模块预先设置的功能组件及所述目标采集规则完成数据采集。可选的,所述采集规则生成模块包括:网页解析单元,用于对各个网站的网页进行解析,得到解析结果;采集规则生成单元,用于根据各个网站的解析结果,对预先获取的通用配置文件进行编写,得到各个网站对应的采集规则。可选的,所述装置还包括:通用配置文件生成模块,用于在所述根据各个网站的解析结果,对预先获取的通用配置文件进行编写,得到各个网站对应的采集规则之前,基于配置文件模板,通过脚本命令生成通用配置文件。采集规则确定单元,用于将所确定的采集规则确定为所述目标网站对应的目标采集规则。可选的,所述功能组件为多个,所述采集规则与所述功能组件唯一对应;所述数据采集模块包括:数据采集单元,用于按照数据采集的流程,在执行每一个流程时调用预先设置的功能组件发起相应的功能,并基于对应的目标采集规则完成该功能,直到数据采集完成。可选的,所述通用功能组件包括:发起网络请求功能组件、链接提取功能组件、数据特征提取功能组件、数据清洗功能组件、数据核查去重功能组件及数据存储功能组件。可选的,所述通过功能组件生成模块包括:子流程划分单元,用于根据预设规则将数据采集流程划分为多个通用子流程;代码提炼单元,用于根据所述多个通用子流程的代码逻辑,利用编程语言生成所述多个通用子流程分别对应的代码;通过功能组件生成单元,用于将所生成的代码分别封装为相应的功能组件。第三方面,本专利技术实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任一所述的数据采集方法步骤。第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的数据采集方法步骤。本专利技术实施例所提供的方案中,电子设备可以首先确定数据采集针对的目标网站,然后从预先制定的采集规则中,确定目标网站对应的目标采集规则,进而,基于预先设置的功能组件及目标采集规则完成数据采集。由于无需人工针对每一网站编写一套对应的采集代码,只需要预先设置数据采集过程中的功能组件,针对不同的网站制定的采集规则,就可以对各个网站进行数据采集,大大提高了开发速度和数据采集效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例所提供的一种数据采集方法的流程图;图2为图1所示实施例中步骤S102的一种具体流程图;图3为基于图1所示实施例的功能组件的生成方式的一种流程图;图4为本专利技术实施例所提供的一种数据采集装置的流程图;图5为本专利技术实施例所提供的一种电子设备的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了提高开发速度和数据采集效率,本专利技术实施例提供了一种数据采集方法、装置、电子设备及计算机可读存储介质。下面首先对本专利技术实施例所提供的一种数据采集方法进行介绍。本专利技术实施例所提供的一种数据采集方法可以应用于任意需要进行数据采集的电子设备,例如,电脑、手机、处理器等,在此不做具体限定,为了描述方便,以下简称电子设备。如图1所示,一种数据采集方法,所述方法包括:S101,确定数据采集针对的目标网站;S102,从预先制定的采集规则中,确定所述目标网站对应的目标采集规则;S103,基于预先设置的功能组件及所述目标采集规则完成数据采集。可见,本专利技术实施例所提供的方案中,电子设备可以首先确定数据采集针对的目标网站,然后从预先制定的采集规则中,确定目标网站对应的目标采集规则,进而,基于预先设置的功能组件及目标采集规则完成数据采集。由于无需人工针对每一网站编写一套对应的采集代码,只需要预先设置数据采集过程中的功能组件,针对不同的网站制定的采集规则,就可以对各个网站进行数据采集,大大提高了开发速度和数据采集效率。在上述步骤S101中,电子设备可以确定数据采集针对的目标网站。其中,目标网站即本文档来自技高网...

【技术保护点】
1.一种数据采集方法,其特征在于,所述方法包括:确定数据采集针对的目标网站;从预先制定的采集规则中,确定所述目标网站对应的目标采集规则;基于预先设置的功能组件及所述目标采集规则完成数据采集。

【技术特征摘要】
1.一种数据采集方法,其特征在于,所述方法包括:确定数据采集针对的目标网站;从预先制定的采集规则中,确定所述目标网站对应的目标采集规则;基于预先设置的功能组件及所述目标采集规则完成数据采集。2.如权利要求1所述的方法,其特征在于,所述采集规则的生成方式,包括:对各个网站的网页进行解析,得到解析结果;根据各个网站的解析结果,对预先获取的通用配置文件进行编写,得到各个网站对应的采集规则。3.如权利要求2所述的方法,其特征在于,在所述根据各个网站的解析结果,对预先获取的通用配置文件进行编写,得到各个网站对应的采集规则的步骤之前,所述方法还包括:基于配置文件模板,通过脚本命令生成通用配置文件。4.如权利要求1所述的方法,其特征在于,所述功能组件为多个,所述采集规则与所述功能组件唯一对应;所述基于预先设置的功能组件及所述目标采集规则完成数据采集的步骤,包括:按照数据采集的流程,在执行每一个流程时调用预先设置的功能组件发起相应的功能,并基于对应的目标采集规则完成该功能,直到数据采集完成。5.如权利要求4所述的方法,其特征在于,所述功能组件包括:发起网络请求功能组件、链接提取功能组件、数据特征提取功能组件、数据清洗功能组件、数据核查去重功能组件及数据存储功能组件。6.如权利要求1-5任一项所述的方法,其特征在于,所述功能组件的生成方式,包括:根据预设规则将数据采集流程划分为多个通用子流程;根据所述多个通用子流程的代码逻辑,利用编程语言生成所述多个通用子流程分别对应的代码;将所生成的代码分别封装为相应的功能组件。7.一种数据采集装置,其特征在于,所述装置包括:目标网站确定模块,用于确定数据采集针对的目标网站;采集规则确定模块,用于从通过采集规则生成模块预先制定的采集规则中,确定所述目标网站对应的目标采集规则;数据...

【专利技术属性】
技术研发人员:李长亮梁传坚汪美玲唐剑波
申请(专利权)人:北京金山数字娱乐科技有限公司成都金山互动娱乐科技有限公司武汉金山办公软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1