一种设置爬虫爬取时间间隔的方法及装置制造方法及图纸

技术编号:15260392 阅读:156 留言:0更新日期:2017-05-03 13:13
本发明专利技术公开了一种设置爬虫爬取时间间隔的方法及装置,涉及互联网技术领域,解决了无法为爬虫设置合理的爬取时间间隔而造成爬虫有效利用率低下的问题。本发明专利技术的方法包括:以默认爬取时间间隔对目标网站进行爬取;获取所述目标网站在一段时间内的实际平均更新量;判断所述实际平均更新量是否等于预设平均更新量;当判断结果为否时,根据所述实际平均更新量、所述预设平均更新量以及所述默认爬取时间间隔设置爬虫爬取时间间隔。本发明专利技术主要用于动态设置网页的爬取时间间隔从而提高爬虫的有效利用率。

Method and device for setting crawler crawling time interval

The invention discloses a method and a device for setting a crawl time interval, which relates to the technical field of the Internet, to set up reasonable crawler crawling time interval caused by the low rate of effective utilization of crawler solution. The method of the invention comprises: using the default crawling interval on the target web crawling; acquiring the target site for a period of time the actual average renewal quantity; whether the actual average amount is equal to the average default update update; when the judging result is not updated, according to the actual amount, average the preset average update amount and the default crawling interval crawler crawling time interval. The invention is mainly used for dynamically setting up the crawling time interval of the web page, so as to improve the effective utilization rate of the crawler.

【技术实现步骤摘要】

本专利技术涉及互联网
,特别是涉及一种设置爬虫爬取时间间隔的方法及装置
技术介绍
网络爬虫是一种自动获取网页内容的程序,爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统一定的停止条件。在爬虫工作的过程中,特别是在检查网站更新量的时候,对没有更新或更新量很少的网站在短时间内多次爬取是没有必要的,因此有必要控制爬虫对同一个网站爬取的时间间隔,避免浪费爬虫资源。目前通行的做法是人工设置网页的爬取时间间隔,包括对每个种子(爬虫需要爬取的页面url)单独进行设置和统一设置两种方式,统一的设置爬取时间间隔需要平衡更新量不同的网站,对于更新频繁的网站,期望时间间隔要尽量的短,对于更新不频繁的网站,期望时间间隔相对要长,因此一般设置的时间间隔都是这两种情况下的折中选择结果。但是折中的时间间隔一方面导致更新频繁的网站将无法及时的获取到更新内容,严重影响了更新时间的确定,另一方面导致更新不频繁的网站多次重复爬取,浪费了系统的爬虫资源。
技术实现思路
有鉴于此,本专利技术提出了一种设置爬虫爬取时间间隔的方法及装置,主要目的在于解决无法为爬虫设置合理的爬取时间间隔而造成爬虫有效利用率低下的问题。依据本专利技术的第一个方面,本专利技术提出了一种设置爬虫爬取时间间隔的方法,包括:以默认爬取时间间隔对目标网站进行爬取;获取目标网站在一段时间内的实际平均更新量;判断实际平均更新量是否等于预设平均更新量;当判断结果为否时,根据实际平均更新量、预设平均更新量以及默认爬取时间间隔设置爬虫爬取时间间隔。依据本专利技术的第二个方面,本专利技术提出了一种设置爬虫爬取时间间隔的装置,包括:爬取单元,用于以默认爬取时间间隔对目标网站进行爬取;获取单元,用于获取目标网站在一段时间内的实际平均更新量;判断单元,用于判断获取单元获取的实际平均更新量是否等于预设平均更新量;设置单元,用于当判断结果为否时,根据获取单元获取的实际平均更新量、预设平均更新量以及默认爬取时间间隔设置爬虫爬取时间间隔。借由上述技术方案,本专利技术实施例提供的设置爬虫爬取时间间隔的方法及装置,能够以默认爬取时间间隔对目标网站进行爬取,获取目标网站在一段时间内的实际平均更新量,判断实际平均更新量是否等于预设平均更新量;当判断结果为否时,根据实际平均更新量、预设平均更新量以及默认爬取时间间隔设置爬虫爬取时间间隔。与现有技术中为爬虫人工设置统一的爬取时间间隔造成的无法对频繁更新的网站进行及时爬取或者对更新不频繁的网站多次重复爬取浪费爬虫资源的缺陷相比,本专利技术能够通过对网站更新频率的自学习,自动对不同网站的爬取时间间隔进行设置,既能及时获取网站更新内容,又能避免爬虫资源的浪费。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种设置爬虫爬取时间间隔的方法的流程图;图2示出了本专利技术实施例提供的一种设置爬虫爬取时间间隔的装置的组成框图;图3示出了本专利技术实施例提供的另一种设置爬虫爬取时间间隔的装置的组成框图。具体实施方式下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。在现有的爬虫爬取目标网站的过程中,为了能够保证对每个网站都能及时进行爬取,通常会为每个网站单独设置一个爬取时间间隔,但是这种方式需要耗费极大的人力成本,若为所有的目标网站统一设置一个爬取时间间隔,虽然节约了部分人力成本,但是又会出现设置的爬取时间间隔不准确的缺陷,一方面导致更新频繁的网站将无法及时的获取到更新内容,严重影响了更新时间的确定,另一方面导致更新不频繁的网站多次重复爬取,浪费了系统的爬虫资源。为了解决无法为爬虫设置合理的爬取时间间隔而造成爬虫有效利用率低下的问题,本专利技术实施例提供了一种设置爬虫爬取时间间隔的方法,如图1所示,该方法包括:101、以默认爬取时间间隔对目标网站进行爬取。在本专利技术实施例中,当爬虫首次开始爬取目标网站的内容时,是以统一的爬取时间间隔进行爬取的,该爬取时间间隔是爬虫默认爬取时间间隔,是基于所有目标网站的更新频率选择的爬取时间间隔,该默认爬取时间间隔既不会对更新频率高的网站爬取过慢又不会对更新频率低的网站爬取过快,通常该默认爬取时间间隔在一段时间内是适用的,随着爬取时间的推移,该默认爬取时间间隔适用度下降,因此该默认爬取时间间隔还可以动态调整。102、获取目标网站在一段时间内的实际平均更新量。由于本专利技术实施例是针对各个网站的不同更新情况实时为爬虫设置爬取时间间隔,因此为了获取每个目标网站的更新情况,本专利技术实施例需要在爬虫通过默认爬取时间间隔对各个目标网站进行爬取的过程中,执行步骤102获取目标网站在一段时间内的实际平均更新量,该实际平均更新量能够反映该目标网站在该段时间内的更新状况,从而为爬虫设置该段时间内的爬取时间间隔提供参考依据。103、判断实际平均更新量是否等于预设平均更新量。对每个目标网站而言,通过步骤102获取的一段时间内的实际平均更新量是动态变化的,在下一段时间内的获取的实际平均更新量可能会发生变化。但是对目标网站而言,其通常在正常更新水平的情况下,会存在一个正常平均更新量,该正常平均更新量反应了目标网站理想的更新状况,可以作为判断该目标网站在一段时间内更新状况的频繁与否,因此本专利技术实施例可以将目标网站的正常平均更新量作为预设平均更新量与获取的目标网站的实际平均更新量进行比较,判断实际平均更新量是否等于预设平均更新量。若通过步骤102获取的目标网站在一段时间内的实际平均更新量大于预设平均更新量,则说明在该段时间内目标网站更新频率较高,需要缩短爬取时间间隔;若获取的目标网站在一段时间内的实际平均更新量小于预设平均更新量,则说明在该段时间内目标网站更新频率较低,需要延长爬取时间间隔;若获取的目标网站在一段时间内的实际平均更新量等于预设平均更新量,则说明在该段时间内目标网站更新频率不变,可以继续按照默认爬取时间间隔进行爬取。104、当判断结果为否时,根据实际平均更新量、预设平均更新量以及默认爬取时间间隔设置爬虫爬取时间间隔。当在步骤104中判断实际平均更新量不等于预设平均更新量时,说明需要重新设置爬虫爬取时间间隔,可以根据实际平均更新量、预设平均更新量以及默认爬取时间间隔,结合平均更新量和爬取时间的负相关性,设置爬虫爬取时间间隔。本专利技术实施例提供的设置爬虫爬取时间间隔的方法,能够以默认爬取时间间隔对目标网站进行爬取,获取目标网站在一段时间内的实际平均更新量,判断实际平均更新量是否等于预设平均更新本文档来自技高网...
一种设置爬虫爬取时间间隔的方法及装置

【技术保护点】
一种设置爬虫爬取时间间隔的方法,其特征在于,所述方法包括:以默认爬取时间间隔对目标网站进行爬取;获取所述目标网站在一段时间内的实际平均更新量;判断所述实际平均更新量是否等于预设平均更新量;当判断结果为否时,根据所述实际平均更新量、所述预设平均更新量以及所述默认爬取时间间隔设置爬虫爬取时间间隔。

【技术特征摘要】
1.一种设置爬虫爬取时间间隔的方法,其特征在于,所述方法包括:以默认爬取时间间隔对目标网站进行爬取;获取所述目标网站在一段时间内的实际平均更新量;判断所述实际平均更新量是否等于预设平均更新量;当判断结果为否时,根据所述实际平均更新量、所述预设平均更新量以及所述默认爬取时间间隔设置爬虫爬取时间间隔。2.根据权利要求1所述的方法,其特征在于,所述以默认爬取时间间隔对目标网站进行爬取,包括:根据各个目标网站的爬取时间间隔计算爬取时间折中值;将所述爬取时间折中值作为默认爬取时间间隔对所有目标网站进行爬取。3.根据权利要求1所述的方法,其特征在于,所述获取所述目标网站在一段时间内的实际平均更新量,包括:获取所述目标网站在一段时间内的总更新量;根据所述总更新量以及所述一段时间计算所述目标网站在所述一段时间内的实际平均更新量。4.根据权利要求1所述的方法,其特征在于,所述根据所述实际平均更新量、所述预设平均更新量以及所述默认爬取时间间隔设置爬虫爬取时间间隔,包括:通过下述公式:爬虫爬取时间间隔=默认爬取时间间隔/(实际平均更新量/预设平均更新量),设置爬虫爬取时间间隔。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:预设爬虫爬取时间间隔的最大阈值与最小阈值;当设置的所述爬虫爬取时间间隔位于所述最大阈值与所述最小阈值范围之间时,选择设置的所述爬虫爬取时间间隔进行爬取;当设置的所述爬虫爬取时间间隔大于所述最大阈值时,选择所述最大阈值进行爬取;当设置的所述爬虫爬取时间间隔小于所述最小阈值时,选择所述最小
\t阈值进行爬取。6.一种设置爬虫爬取时间间隔的装置,其特...

【专利技术属性】
技术研发人员:潘峰孙德彬
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1