The embodiment of the present invention provides a data acquisition method, device, electronic equipment and storage medium. The method includes: determining the target website for data acquisition; determining the target acquisition rules corresponding to the target website from the pre-established acquisition rules; and completing data acquisition based on the pre-set functional components and target acquisition rules. Because there is no need to manually write a set of corresponding acquisition code for each website, only need to pre-set the functional components in the process of data acquisition, according to the acquisition rules formulated for different websites, data acquisition can be carried out for each website, greatly improving the development speed and data acquisition efficiency.
【技术实现步骤摘要】
一种数据采集方法、装置、电子设备及存储介质
本专利技术涉及数据处理
,特别是涉及一种数据采集方法、装置、电子设备及存储介质。
技术介绍
在当前的网络时代,很用场景都需要进行数据采集,例如,构建知识图谱之前需要在各个网站采集大量数据;测评应用程序的使用状况需要采集大量用户使用行为数据等。由于各个网站的架构、协议等均存在差别,所以在进行数据采集时,需要编程人员针对每一个需要进行数据采集的网站编写一套对应的采集代码,采集代码之间不能通用。例如,在采集知识图谱构建所需的数据时,通常采用爬虫技术从各个网站爬取数据。爬虫通常主要包括发起请求和数据解析这两个部分。所以在进行数据采集时,便需要编程人员针对每一个需要进行数据采集的网站,根据爬虫的过程编写一套对应的采集代码,这样会导致开发速度很慢,数据采集效率低。
技术实现思路
本专利技术实施例的目的在于提供一种数据采集方法、装置、电子设备及存储介质,以提高开发速度和数据采集效率。具体技术方案如下:第一方面,本专利技术实施例提供了一种数据采集方法,所述方法包括:确定数据采集针对的目标网站;从预先制定的采集规则中,确定所述目标网站对应的目标采集规则;调用基于预先设置的功能组件及所述目标采集规则完成数据采集。可选的,所述采集规则的生成方式,包括:对各个网站的网页进行解析,得到解析结果;根据各个网站的解析结果,对预先获取的通用配置文件进行编写,得到各个网站对应的采集规则。可选的,在所述根据各个网站的解析结果,对预先获取的通用配置文件进行编写,得到各个网站对应的采集规则的步骤之前,所述方法还包括:将所确定的采集规则确定为所述目标网 ...
【技术保护点】
1.一种数据采集方法,其特征在于,所述方法包括:确定数据采集针对的目标网站;从预先制定的采集规则中,确定所述目标网站对应的目标采集规则;基于预先设置的功能组件及所述目标采集规则完成数据采集。
【技术特征摘要】
1.一种数据采集方法,其特征在于,所述方法包括:确定数据采集针对的目标网站;从预先制定的采集规则中,确定所述目标网站对应的目标采集规则;基于预先设置的功能组件及所述目标采集规则完成数据采集。2.如权利要求1所述的方法,其特征在于,所述采集规则的生成方式,包括:对各个网站的网页进行解析,得到解析结果;根据各个网站的解析结果,对预先获取的通用配置文件进行编写,得到各个网站对应的采集规则。3.如权利要求2所述的方法,其特征在于,在所述根据各个网站的解析结果,对预先获取的通用配置文件进行编写,得到各个网站对应的采集规则的步骤之前,所述方法还包括:基于配置文件模板,通过脚本命令生成通用配置文件。4.如权利要求1所述的方法,其特征在于,所述功能组件为多个,所述采集规则与所述功能组件唯一对应;所述基于预先设置的功能组件及所述目标采集规则完成数据采集的步骤,包括:按照数据采集的流程,在执行每一个流程时调用预先设置的功能组件发起相应的功能,并基于对应的目标采集规则完成该功能,直到数据采集完成。5.如权利要求4所述的方法,其特征在于,所述功能组件包括:发起网络请求功能组件、链接提取功能组件、数据特征提取功能组件、数据清洗功能组件、数据核查去重功能组件及数据存储功能组件。6.如权利要求1-5任一项所述的方法,其特征在于,所述功能组件的生成方式,包括:根据预设规则将数据采集流程划分为多个通用子流程;根据所述多个通用子流程的代码逻辑,利用编程语言生成所述多个通用子流程分别对应的代码;将所生成的代码分别封装为相应的功能组件。7.一种数据采集装置,其特征在于,所述装置包括:目标网站确定模块,用于确定数据采集针对的目标网站;采集规则确定模块,用于从通过采集规则生成模块预先制定的采集规则中,确定所述目标网站对应的目标采集规则;数据...
【专利技术属性】
技术研发人员:李长亮,梁传坚,汪美玲,唐剑波,
申请(专利权)人:北京金山数字娱乐科技有限公司,成都金山互动娱乐科技有限公司,武汉金山办公软件有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。