The invention discloses a web data acquisition method, for example, the method can include receiving batch data acquisition request, wherein the request carries the information to determine the corresponding destination URL; the target URL information can successfully collect the target data acquisition strategy, the strategy of collecting the information of the corresponding target. According to the specific target URL information for at least includes target data acquisition test synchronous loading test, the acquisition strategy including synchronous or asynchronous loading loading method; according to the synchronous loading mode setting strategy and acquiring the destination URL information in the corresponding or asynchronous loading mode, take the corresponding loading mode of the target acquisition web site information \in the target data point. In addition, the invention also discloses a web page data acquisition device and a system.
【技术实现步骤摘要】
本申请涉及互联网领域,尤其涉及一种网页数据采集方法、装置及系统。
技术介绍
在网站的SEO(SearchEngineOptimization,搜索引擎优化)建设过程中,为了能够准确了解到站点现阶段的总体优化情况,会产生一些对第三方站点或平台的数据采集需求,通过对采集到的各类信息进行分析从而制定下一步的网站优化策略。目前,主要通过互联网加载第三方站点或平台的网页数据来采集第三方站点或平台的数据。加载网页数据主要包括同步和异步两种加载方式。同步方加载方式,为请求直接返回HTML页面。异步加载方式,在页面返回后,通过加载JS(JavaScript,一种直译式脚本语言)方式改变页面原有结构从而加载出数据。在得到返回的HTML页面之后,可以对HTML页面进行解析,将有用的数据提取分离出来,比如可以抽取出新浪网新闻频道里的某个新闻的标题。由于制定网站优化策略的数据需求量较大,因此,需要批量采集第三方站点或平台的网页数据。然而,由于不同网页数据加载方式可能不同,为了保证数据采集结果的准确性,只能统一采取异步加载的方式。但是,由于JS执行需要消耗额外的时间,对于本来同步就能加载出的数据会额外消耗大量硬件资源和时间,导致数据采集效率较低。
技术实现思路
有鉴于此,本申请的目的在于提供一种网页数据采集方法、装置及系统以实现提高数据采集效率的目的。在本申请实施例的第一个方面,提供了一种网页数据采集方法。例如 ...
【技术保护点】
一种网页数据采集方法,其特征在于,包括:接收批量采集数据的请求,其中,所述请求携带有目标网址信息;确定所述目标网址信息对应的可成功采集目标数据的采集策略,其中,所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得,所述采集策略包括同步加载方式或异步加载方式;根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式,采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据。
【技术特征摘要】
1.一种网页数据采集方法,其特征在于,包括:
接收批量采集数据的请求,其中,所述请求携带有目标网址信息;
确定所述目标网址信息对应的可成功采集目标数据的采集策略,其中,
所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括
同步加载测试的目标数据采集测试获得,所述采集策略包括同步加载方式或
异步加载方式;
根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加
载方式,采取相应的加载方式采集所述目标网址信息指向的网页中的目标数
据。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标网址信
息对应的可成功采集目标数据的采集策略包括:
提取所述目标网址信息对应的历史采集策略,所述历史采集策略具体预
先通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获
得,所述历史采集策略包括同步加载方式或异步加载方式;
确定所述历史采集策略为所述目标网址信息对应的可成功采集目标数据
的采集策略。
3.根据权利要求1所述的方法,其特征在于,所述确定所述目标网址信
息对应的可成功采集目标数据的采集策略包括:
提取所述目标网址信息对应的历史采集策略,所述历史采集策略具体预
先通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获
得,所述历史采集策略包括同步加载方式或异步加载方式;
按预设小规模测试规则确定用于标识小规模测试数据的HTML标签以
及所述目标网址信息中需要测试的网址信息;
根据所述目标网址信息对应的历史采集策略以及用于标识小规模测试数
据的HTML标签,尝试采集需要测试的网址信息指向的网页中的小规模测试
数据;
如果采集成功,则确定所述历史采集策略为所述目标网址信息对应的可
成功采集目标数据的采集策略;
如果采集不成功,则对该目标网址信息进行至少包括同步加载测试的目
\t标数据采集测试,获得对应的可成功采集目标数据的采集策略,根据获得的
采集策略更新所述目标网址信息对应的历史采集策略。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述对目标网址
信息进行至少包括同步加载测试的目标数据采集测试包括:
采取同步加载方式加载所述目标网址信息指向的网页,针对同步加载得
到的网页,从中尝试读取目标数据,针对可从同步加载得到的网页中读取出
目标数据的网址信息,设置该类型的网址信息对应的采集策略中的加载方式
为同步加载方式,针对不可从同步加载得到的网页中读取出目标数据的网址
信息,设置该类型的网址信息对应的采集策略中的加载方式为异步加载方式。
5.根据权利要求4所述的方法,其特征在于,所述采取同步加载方式加
载所述目标网址信息指向的网页的步骤多次执行,且,还包括:
在每次执行时,均记录与网址建立连接的时间、以及在连接后用于获取
网页页面的时间,在设置该类型的网址信息对应的采集策略中的加载方式为
同步加载方式时,根据在多次执行过程中记录的建立连接的时间、以及在连
接后用于获取网页页面的时间,进行对应的采集策略中同步加载方式对应的
连接超时时间以及获取页面超时时间的设定;
针对不可从同步加载得到的网页中读取出目标数据的网址信息,多次采
取异步加载方式加载其指向的网页,且每次执行时均记录与网址建立连接的
时间、以及在连接后用于获取网页页面的时间,在设置该类型的网址信息对
应的采集策略中的加载方式为异步加载方式时,根据多次采取异步加载方式
加载网页过程中记录的建立连接的时间、以及在连接后用于获取网页页面的
时间,进行对应的采集策略中异步加载方式对应的连接超时时间以及获取页
面超时时间的设定。
6.一种网页数据采集装置,其特征在于,包括:
请求接收单元,用于接收批量采集数据的请求,其中,所述请求携带有
目标网址信息;
策略确定单元,用于确定所述目标网址信息对应的可成功采集目标数据
的采集策略,其中,所述目标网址信息对应的采集策略具体通过对该目标网
址信息进行至少包括同步加载测试的目标数据采集测试获得,所述采集策略
\t包括同步加载方式或异步加载方式;
采集单元,用于根据所述目标网址信息对应的采集策略中设置的同步加
载方式或异步加载方式,采取相应的加载方式采集所述目标网址信息指向的
网页中的目...
【专利技术属性】
技术研发人员:刘庆,黄华,殷贤君,张美德,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。