一种网页数据采集方法、装置及系统制造方法及图纸

技术编号:15094719 阅读:71 留言:0更新日期:2017-04-07 22:16
本申请公开了一种网页数据采集方法,例如,该方法可以包括:接收批量采集数据的请求,其中,所述请求携带有目标网址信息;确定所述目标网址信息对应的可成功采集目标数据的采集策略,其中,所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得,所述采集策略包括同步加载方式或异步加载方式;根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式,采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据。另外,本申请还公开了一种网页数据采集装置及系统。

Method, device and system for collecting web page data

The invention discloses a web data acquisition method, for example, the method can include receiving batch data acquisition request, wherein the request carries the information to determine the corresponding destination URL; the target URL information can successfully collect the target data acquisition strategy, the strategy of collecting the information of the corresponding target. According to the specific target URL information for at least includes target data acquisition test synchronous loading test, the acquisition strategy including synchronous or asynchronous loading loading method; according to the synchronous loading mode setting strategy and acquiring the destination URL information in the corresponding or asynchronous loading mode, take the corresponding loading mode of the target acquisition web site information \in the target data point. In addition, the invention also discloses a web page data acquisition device and a system.

【技术实现步骤摘要】

本申请涉及互联网领域,尤其涉及一种网页数据采集方法、装置及系统
技术介绍
在网站的SEO(SearchEngineOptimization,搜索引擎优化)建设过程中,为了能够准确了解到站点现阶段的总体优化情况,会产生一些对第三方站点或平台的数据采集需求,通过对采集到的各类信息进行分析从而制定下一步的网站优化策略。目前,主要通过互联网加载第三方站点或平台的网页数据来采集第三方站点或平台的数据。加载网页数据主要包括同步和异步两种加载方式。同步方加载方式,为请求直接返回HTML页面。异步加载方式,在页面返回后,通过加载JS(JavaScript,一种直译式脚本语言)方式改变页面原有结构从而加载出数据。在得到返回的HTML页面之后,可以对HTML页面进行解析,将有用的数据提取分离出来,比如可以抽取出新浪网新闻频道里的某个新闻的标题。由于制定网站优化策略的数据需求量较大,因此,需要批量采集第三方站点或平台的网页数据。然而,由于不同网页数据加载方式可能不同,为了保证数据采集结果的准确性,只能统一采取异步加载的方式。但是,由于JS执行需要消耗额外的时间,对于本来同步就能加载出的数据会额外消耗大量硬件资源和时间,导致数据采集效率较低。
技术实现思路
有鉴于此,本申请的目的在于提供一种网页数据采集方法、装置及系统以实现提高数据采集效率的目的。在本申请实施例的第一个方面,提供了一种网页数据采集方法。例如,该方法可以包括:接收批量采集数据的请求,其中,所述请求携带有目标网址信息;确定所述目标网址信息对应的可成功采集目标数据的采集策略,其中,所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得,所述采集策略包括同步加载方式或异步加载方式;根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式,采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据。在本申请实施例的第二个方面,提供了一种网页数据采集装置。例如,该装置可以包括:请求接收单元,可以用于接收批量采集数据的请求,其中,所述请求携带有目标网址信息。策略确定单元,可以用于确定所述目标网址信息对应的可成功采集目标数据的采集策略,其中,所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得,所述采集策略包括同步加载方式或异步加载方式。采集单元,可以用于根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式,采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据。在本申请实施例的第三个方面,提供了一种网页数据采集系统。例如,该系统可以包括:客户端,可以用于发出批量采集数据的请求,其中,所述请求携带有目标网址信息。采集策略配置服务器,可以用于接收客户端发送的批量采集数据的请求,确定所述请求携带的目标网址信息对应的可成功采集目标数据的采集策略,其中,所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得,所述采集策略包括同步加载方式或异步加载方式,以及,生成用于根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式,采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据的采集任务,将所述采集任务分发给采集服务器集群中的采集服务器。采集服务器集群,可以用于接收采集策略配置服务器分发的采集任务,执行所述采集任务,反馈采集到的目标数据。可见本申请具有如下有益效果:由于本申请实施例在接收批量采集数据的请求之后,根据请求携带的目标网址信息确定了对应的可成功采集目标数据的采集策略,而该采集策略是通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得的,因此,如果目标网址信息对应的网页以同步加载方式能够采集出目标数据,则测试得到的可成功采集目标数据的采集策略中包含的加载方式就可以是同步加载方式,从而采取采集策略中设置的同步加载方式采集数据,使同步就能加载出的数据可以避免采用异步加载方式加载,避免造成资源和时间的额外消耗,因此,本申请实施例在保证成功采集到目标数据的同时,可以有效提高数据采集效率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例公开的一种网页数据采集方法流程示意图;图2为本申请实施例公开的一种网页数据采集装置结构示意图;图3为本申请实施例公开的一种网页数据采集系统结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。一般来说,由于JS执行需要消耗额外的时间,对同一个页面结构如果不执行JS,则执行效率会有一定提升。基于这个原理,在批量采集网页数据前,如果能够对页面数据的加载方式进行至少包括同步加载测试的有效分析测试,则可以区分出可同步加载目标数据的网址信息以及必须异步加载目标数据的网址信息,并设置对应的可成功采集目标数据的采集策略。这样,在批量采集数据时,可以根据与目标网址信息对应的采集策略,采取其中设置的同步加载方式或异步加载方式采集数据,使本来同步就能加载出的数据可以避免采用异步加载方式加载,从而避免造成资源和时间的额外消耗,可以有效的提高数据采集效率。例如,参见图1,为本申请实施例提供的一种网页数据采集方法流程示意图。如图1所示,该方法可以包括:S110、接收批量采集数据的请求,其中,所述请求携带有目标网址信息。例如,所接收的批量采集数据的请求,可以携带有用户在前端页面上输入的批量采集配置信息。假设要批量采集1688站点搜索页面在检索不同关键词时的搜索结果数据。那么批量采集配置信息可以包括:目标网址信息“http://s.1688.com/selloffer/offer_search.htm?本文档来自技高网
...

【技术保护点】
一种网页数据采集方法,其特征在于,包括:接收批量采集数据的请求,其中,所述请求携带有目标网址信息;确定所述目标网址信息对应的可成功采集目标数据的采集策略,其中,所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得,所述采集策略包括同步加载方式或异步加载方式;根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式,采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据。

【技术特征摘要】
1.一种网页数据采集方法,其特征在于,包括:
接收批量采集数据的请求,其中,所述请求携带有目标网址信息;
确定所述目标网址信息对应的可成功采集目标数据的采集策略,其中,
所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括
同步加载测试的目标数据采集测试获得,所述采集策略包括同步加载方式或
异步加载方式;
根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加
载方式,采取相应的加载方式采集所述目标网址信息指向的网页中的目标数
据。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标网址信
息对应的可成功采集目标数据的采集策略包括:
提取所述目标网址信息对应的历史采集策略,所述历史采集策略具体预
先通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获
得,所述历史采集策略包括同步加载方式或异步加载方式;
确定所述历史采集策略为所述目标网址信息对应的可成功采集目标数据
的采集策略。
3.根据权利要求1所述的方法,其特征在于,所述确定所述目标网址信
息对应的可成功采集目标数据的采集策略包括:
提取所述目标网址信息对应的历史采集策略,所述历史采集策略具体预
先通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获
得,所述历史采集策略包括同步加载方式或异步加载方式;
按预设小规模测试规则确定用于标识小规模测试数据的HTML标签以
及所述目标网址信息中需要测试的网址信息;
根据所述目标网址信息对应的历史采集策略以及用于标识小规模测试数
据的HTML标签,尝试采集需要测试的网址信息指向的网页中的小规模测试
数据;
如果采集成功,则确定所述历史采集策略为所述目标网址信息对应的可
成功采集目标数据的采集策略;
如果采集不成功,则对该目标网址信息进行至少包括同步加载测试的目

\t标数据采集测试,获得对应的可成功采集目标数据的采集策略,根据获得的
采集策略更新所述目标网址信息对应的历史采集策略。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述对目标网址
信息进行至少包括同步加载测试的目标数据采集测试包括:
采取同步加载方式加载所述目标网址信息指向的网页,针对同步加载得
到的网页,从中尝试读取目标数据,针对可从同步加载得到的网页中读取出
目标数据的网址信息,设置该类型的网址信息对应的采集策略中的加载方式
为同步加载方式,针对不可从同步加载得到的网页中读取出目标数据的网址
信息,设置该类型的网址信息对应的采集策略中的加载方式为异步加载方式。
5.根据权利要求4所述的方法,其特征在于,所述采取同步加载方式加
载所述目标网址信息指向的网页的步骤多次执行,且,还包括:
在每次执行时,均记录与网址建立连接的时间、以及在连接后用于获取
网页页面的时间,在设置该类型的网址信息对应的采集策略中的加载方式为
同步加载方式时,根据在多次执行过程中记录的建立连接的时间、以及在连
接后用于获取网页页面的时间,进行对应的采集策略中同步加载方式对应的
连接超时时间以及获取页面超时时间的设定;
针对不可从同步加载得到的网页中读取出目标数据的网址信息,多次采
取异步加载方式加载其指向的网页,且每次执行时均记录与网址建立连接的
时间、以及在连接后用于获取网页页面的时间,在设置该类型的网址信息对
应的采集策略中的加载方式为异步加载方式时,根据多次采取异步加载方式
加载网页过程中记录的建立连接的时间、以及在连接后用于获取网页页面的
时间,进行对应的采集策略中异步加载方式对应的连接超时时间以及获取页
面超时时间的设定。
6.一种网页数据采集装置,其特征在于,包括:
请求接收单元,用于接收批量采集数据的请求,其中,所述请求携带有
目标网址信息;
策略确定单元,用于确定所述目标网址信息对应的可成功采集目标数据
的采集策略,其中,所述目标网址信息对应的采集策略具体通过对该目标网
址信息进行至少包括同步加载测试的目标数据采集测试获得,所述采集策略

\t包括同步加载方式或异步加载方式;
采集单元,用于根据所述目标网址信息对应的采集策略中设置的同步加
载方式或异步加载方式,采取相应的加载方式采集所述目标网址信息指向的
网页中的目...

【专利技术属性】
技术研发人员:刘庆黄华殷贤君张美德
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1