The invention discloses a method and a device for setting a crawl time interval, which relates to the technical field of the Internet, to set up reasonable crawler crawling time interval caused by the low rate of effective utilization of crawler solution. The method of the invention comprises: using the default crawling interval on the target web crawling; acquiring the target site for a period of time the actual average renewal quantity; whether the actual average amount is equal to the average default update update; when the judging result is not updated, according to the actual amount, average the preset average update amount and the default crawling interval crawler crawling time interval. The invention is mainly used for dynamically setting up the crawling time interval of the web page, so as to improve the effective utilization rate of the crawler.
【技术实现步骤摘要】
本专利技术涉及互联网
,特别是涉及一种设置爬虫爬取时间间隔的方法及装置。
技术介绍
网络爬虫是一种自动获取网页内容的程序,爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统一定的停止条件。在爬虫工作的过程中,特别是在检查网站更新量的时候,对没有更新或更新量很少的网站在短时间内多次爬取是没有必要的,因此有必要控制爬虫对同一个网站爬取的时间间隔,避免浪费爬虫资源。目前通行的做法是人工设置网页的爬取时间间隔,包括对每个种子(爬虫需要爬取的页面url)单独进行设置和统一设置两种方式,统一的设置爬取时间间隔需要平衡更新量不同的网站,对于更新频繁的网站,期望时间间隔要尽量的短,对于更新不频繁的网站,期望时间间隔相对要长,因此一般设置的时间间隔都是这两种情况下的折中选择结果。但是折中的时间间隔一方面导致更新频繁的网站将无法及时的获取到更新内容,严重影响了更新时间的确定,另一方面导致更新不频繁的网站多次重复爬取,浪费了系统的爬虫资源。
技术实现思路
有鉴于此,本专利技术提出了一种设置爬虫爬取时间间隔的方法及装置,主要目的在于解决无法为爬虫设置合理的爬取时间间隔而造成爬虫有效利用率低下的问题。依据本专利技术的第一个方面,本专利技术提出了一种设置爬虫爬取时间间隔的方法,包括:以默认爬取时间间隔对目标网站进行爬取;获取目标网站在一段时间内的实际平均更新量;判断实际平均更新量是否等于预设平均更新量;当判断结果为否时,根据实际平均更新量、预设平均更新量以及默认爬取时间间隔设置爬虫爬取时间间隔。 ...
【技术保护点】
一种设置爬虫爬取时间间隔的方法,其特征在于,所述方法包括:以默认爬取时间间隔对目标网站进行爬取;获取所述目标网站在一段时间内的实际平均更新量;判断所述实际平均更新量是否等于预设平均更新量;当判断结果为否时,根据所述实际平均更新量、所述预设平均更新量以及所述默认爬取时间间隔设置爬虫爬取时间间隔。
【技术特征摘要】
1.一种设置爬虫爬取时间间隔的方法,其特征在于,所述方法包括:以默认爬取时间间隔对目标网站进行爬取;获取所述目标网站在一段时间内的实际平均更新量;判断所述实际平均更新量是否等于预设平均更新量;当判断结果为否时,根据所述实际平均更新量、所述预设平均更新量以及所述默认爬取时间间隔设置爬虫爬取时间间隔。2.根据权利要求1所述的方法,其特征在于,所述以默认爬取时间间隔对目标网站进行爬取,包括:根据各个目标网站的爬取时间间隔计算爬取时间折中值;将所述爬取时间折中值作为默认爬取时间间隔对所有目标网站进行爬取。3.根据权利要求1所述的方法,其特征在于,所述获取所述目标网站在一段时间内的实际平均更新量,包括:获取所述目标网站在一段时间内的总更新量;根据所述总更新量以及所述一段时间计算所述目标网站在所述一段时间内的实际平均更新量。4.根据权利要求1所述的方法,其特征在于,所述根据所述实际平均更新量、所述预设平均更新量以及所述默认爬取时间间隔设置爬虫爬取时间间隔,包括:通过下述公式:爬虫爬取时间间隔=默认爬取时间间隔/(实际平均更新量/预设平均更新量),设置爬虫爬取时间间隔。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:预设爬虫爬取时间间隔的最大阈值与最小阈值;当设置的所述爬虫爬取时间间隔位于所述最大阈值与所述最小阈值范围之间时,选择设置的所述爬虫爬取时间间隔进行爬取;当设置的所述爬虫爬取时间间隔大于所述最大阈值时,选择所述最大阈值进行爬取;当设置的所述爬虫爬取时间间隔小于所述最小阈值时,选择所述最小
\t阈值进行爬取。6.一种设置爬虫爬取时间间隔的装置,其特...
【专利技术属性】
技术研发人员:潘峰,孙德彬,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。