实现网络爬虫抓取网页的方法和装置制造方法及图纸

技术编号:14345888 阅读:111 留言:0更新日期:2017-01-04 17:04
本申请实施例公开了实现网络爬虫抓取网页的方法。其中,预先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中;该方法包括:对于任意一个网页簇,统计当该网页簇的抓取成功率满足预设的置信水平时,该网页簇在抓取时的休眠时间的最小置信区间;在最小置信区间范围内配置该网页簇在抓取时的休眠时间;将配置的休眠时间通知给网络爬虫,以便网络爬虫按照配置的休眠时间抓取该网页簇中的网页。通过本申请,可以解决现有技术中在抓取不同网站中的网页或者抓取相同网站中的不同产品的网页时抓取成功率和抓取效率无法同时得到有效保障的问题。本申请实施例还公开了实现网络爬虫抓取网页的装置。

【技术实现步骤摘要】

本申请涉及计算机应用领域,特别是涉及实现网络爬虫抓取网页的方法和装置
技术介绍
网络爬虫,又被称为网页蜘蛛或网络机器人,是一种按照既定规则自动抓取万维网网页的信息的程序或脚本。对于网络爬虫来说,其核心目标就是快速、准确地抓取源网页中的各类信息。在实际运行过程中,由于网络爬虫每一次抓取行为都是模拟用户的真实访问请求,因而网络爬虫的抓取行为会对源网页所在的服务器产生访问压力。如果抓取频率过高,就有可能导致相应的服务器的响应时间过长,甚至于内部出现错误,最终使抓取成功率降低。因此,在现有技术中,当批量抓取网页时,为了避免对服务器造成过大的访问压力,在每一次抓取完毕后,会为网络爬虫设置一个休眠时间,而在该段休眠时间内,网络爬虫不抓取网页。这样,通过休眠时间,可以控制网络爬虫的抓取频率。在实现本申请的过程中,本申请的专利技术人发现现有技术中至少存在如下问题:无论抓取哪个网站的网页,为网络爬虫设置的休眠时间都是一个通用、固定的数值,但是,不同的网站,甚至相同网站中的不同产品,其对外提供的访问能力都是不同的。如果采用一个通用、固定的休眠时间,对于不同的网站,或者相同网站的不同产品来说,就会产生抓取频率过高或过低的问题。如果抓取频率过高,会使影响网络爬虫的抓取成功率;而如果抓取频率过低,也会影响网络爬虫的抓取效率。
技术实现思路
为了解决上述技术问题,本申请实施例提供了实现网络爬虫抓取网页的方法和装置,以解决现有技术中由于休眠时间被设置为一个通用、固定的数值而导致网络爬虫在抓取不同网站中的网页或者抓取相同网站中的不同产品的网页时抓取成功率和抓取效率无法同时得到有效保障的问题。本申请实施例公开了如下技术方案:一种实现网络爬虫抓取网页的方法,预先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中;所述方法包括:对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间;在所述最小置信区间的范围内配置所述网页簇在抓取时的休眠时间;将配置的休眠时间通知给网络爬虫,以便网络爬虫按照配置的休眠时间抓取所述网页簇中的网页。优选的,所述方法还包括:将各个网页簇在抓取时的最小置信区间保存在数据库中。优选的,所述对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间,包括:对于任意一个网页簇,从所述网页簇中选取预设数量的样本网页;统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间;根据所述样本网页在抓取时的休眠时间的最小置信区间,采用矩估计法估计所述网页簇在抓取时的休眠时间的最小置信区间。优选的,所述统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间,包括:从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到当网页的抓取成功率第一次从达不到预设的置信水平转变为达到预设的置信水平时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。优选的,所述统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间,包括:从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到满足预设的停止条件时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。优选的,所述预设的停止条件包括当前的休眠时间的有效位数达到预设位数、测试时间达到预设时间和测试次数达到预设次数中的至少一个;并且,当包括至少两个条件时,所述至少两个条件中的任意一个条件先满足即停止测试。一种实现网络爬虫抓取网页的装置,预先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中;所述装置包括:统计单元,用于对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间;配置单元,用于在所述最小置信区间的范围内配置所述网页簇在抓取时的休眠时间;通知单元,用于将配置的休眠时间通知给网络爬虫,以便网络爬虫按照配置的休眠时间抓取所述网页簇中的网页。优选的,所述装置还包括:保存单元,用于将各个网页簇在抓取时的休眠时间的最小置信区间保存在数据库中。优选的,所述统计单元包括:样本选取子单元,用于针对各个网页簇,从所述网页簇中选取预设数量的样本网页;样本统计子单元,用于统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间;估计子单元,用于根据所述样本网页在抓取时的休眠时间的最小置信区间,采用矩估计法估计所述网页簇在抓取时的休眠时间的最小置信区间。优选的,所述样本统计子单元包括:第一测试子单元,用于从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到当网页的抓取成功率第一次从达不到预设的置信水平转变为达到预设的置信水平时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;计算子单元,用于根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。优选的,所述样本统计子单元包括:第二测试子单元,用于从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到满足预设的停止条件时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;计算子单元,用于根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。优选的,所述预设的停止条件包括当前的休眠时间的有效位数达到预设位数、测试时间达到预设时间和测试次数达到预设次数中的至少一个;并且,当包括至少两个条件时,所述至少两个条件中的任意一个条件先满足即停止测试。由上述实施例可以看出,与现有技术相比,本申请的优点在于:先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇,然后以网页簇为单位,依次统计当各个网页簇的抓取成功率满足预设的置信水平时,各个网页簇在抓取时的休眠时间的最小置信区间,并在最小置信区间的范围内配置各个网页簇在抓取时的休眠时间。不仅为不同网站的网页或者相同网站中的不同产品的网页配置不同的休眠时间,同时,只要在各自的最小置信区间的范围内配置各个网页簇在抓取时的休眠时间,当网络爬虫以该配置的休眠时间批量抓取本文档来自技高网...
实现网络爬虫抓取网页的方法和装置

【技术保护点】
一种实现网络爬虫抓取网页的方法,其特征在于,预先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中;所述方法包括:对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间;在所述最小置信区间的范围内配置所述网页簇在抓取时的休眠时间;将配置的休眠时间通知给网络爬虫,以便网络爬虫按照配置的休眠时间抓取所述网页簇中的网页。

【技术特征摘要】
1.一种实现网络爬虫抓取网页的方法,其特征在于,预先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中;所述方法包括:对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间;在所述最小置信区间的范围内配置所述网页簇在抓取时的休眠时间;将配置的休眠时间通知给网络爬虫,以便网络爬虫按照配置的休眠时间抓取所述网页簇中的网页。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将各个网页簇在抓取时的最小置信区间保存在数据库中。3.根据权利要求1或2所述的方法,其特征在于,所述对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间,包括:对于任意一个网页簇,从所述网页簇中选取预设数量的样本网页;统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间;根据所述样本网页在抓取时的休眠时间的最小置信区间,采用矩估计法估计所述网页簇在抓取时的休眠时间的最小置信区间。4.根据权利要求3所述的方法,其特征在于,所述统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间,包括:从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到当网页的抓取成功率第一次从达不到预设的置信水平转变为达到预设的置信水平时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。5.根据权利要求3所述的方法,其特征在于,所述统计当所述样本网页
\t的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间,包括:从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到满足预设的停止条件时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。6.根据权利要求5所述的方法,其特征在于,所述预设的停止条件包括当前的休眠时间的有效位数达到预设位数、测试时间达到预设时间和测试次数达到预设次数中的至少一个;并且,当包括至少两个条件时,所述至...

【专利技术属性】
技术研发人员:刘庆张美德
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1