【技术实现步骤摘要】
数据采集方法及装置、计算机可读存储介质
本专利技术涉及数据处理技术,尤其涉及一种数据采集方法及装置、计算机可读存储介质。
技术介绍
近年来,随着互联网的迅猛发展,越来越多的人通过网络获取和发布信息,互联网中的数据量与数据价值也与日俱增。由于当今互联网在个人信息获取渠道中已经中占据重要位置,对互联网大数据的分析对于各行各业都具有重要的应用价值。而对互联网大数据进行分析的必要前提是将相关数据进行采集。目前的采集系统一般存在如下几种方式:针对特定网站的定制采集或适应于某一类网站的模板采集。但是,针对特定网站的定制采集需要较长的开发周期,其可扩展性较低,灵活性较差;而适应于某一类网站的模板采集方法则无法应用于类型不一致的网站的数据采集,扩展能力有限,灵活性较差。现有的数据采集方式存在不同程度的应用受限问题,因此,如何在不同应用场景中实现数据采集就成为本领域亟待解决的技术问题。
技术实现思路
本专利技术提供一种数据采集方法及装置、计算机可读存储介质,以期提高数据采集过程的灵活性并提高数据采集效率。< ...
【技术保护点】
1.一种数据采集方法,其特征在于,包括:/n调度模块获取调度模板中的调度信息,所述调度模板以动态模板语言编写并存储;/n所述调度模块根据所述调度信息,生成网络请求;/n下载模块根据所述网络请求,下载网页源码;/n解析模块利用解析模板处理所述网页源码,得到目标数据,所述解析模板与所述调度模板相对应。/n
【技术特征摘要】
1.一种数据采集方法,其特征在于,包括:
调度模块获取调度模板中的调度信息,所述调度模板以动态模板语言编写并存储;
所述调度模块根据所述调度信息,生成网络请求;
下载模块根据所述网络请求,下载网页源码;
解析模块利用解析模板处理所述网页源码,得到目标数据,所述解析模板与所述调度模板相对应。
2.根据权利要求1所述的方法,其特征在于,所述调度模块获取调度模板中的调度信息,包括:
所述调度模块调用第一解析器,并获取所述第一解析器解析所述调度模板得到的所述调度信息。
3.根据权利要求1或2所述的方法,其特征在于,所述调度信息还包括以下至少一种信息:入口信息、频率控制、请求方式、预处理方法、下属数据融合方式、额外数据处理方法。
4.根据权利要求1所述的方法,其特征在于,所述解析模块利用解析模板处理所述网页源码,得到目标数据,包括:
所述解析模块调用第二解析器,并获取所述第二解析器按照所述解析模板处理所述网页源码得到的所述目标数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述解析模块将所述目标数据发送给所述调度模块;
所述调度模块根据所述调度模块,输出或存储所述目标数据。
6.一种数据采集装置,其特征在于,包括:调度模块、下载模块与解析模块;其中,
所述调度模块,用于获取调度模板中的调度信息,所述调度模板以动态模板语言编写并存储;
所述调度模块,还...
【专利技术属性】
技术研发人员:李宇涵,曹六一,张丹,于晓明,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。