The invention discloses a resource download system, method and system of the crawler to download, the download system resources limiting method defines the frequency of crawl to the site by the token bucket, and the timestamp of the random token generator generates a token value added to the range according to the crawler on the site of the second the query rate is determined, the timestamp token according to the timestamp of the current time and the timestamp value added is determined, which will increase the value of the timestamp token is defined as random values, which will limit the crawler frequency on the site of the random frequency, avoiding the anti crawler program according to the characteristics of fixed frequency capture the reptile recognition, thereby reducing the probability of the crawler is counter recognition crawler, increase the functional stability of the crawler.
【技术实现步骤摘要】
一种资源下载系统、方法及爬虫下载系统
本申请涉及计算机应用
,更具体地说,涉及一种资源下载系统、方法及爬虫下载系统。
技术介绍
爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。现有技术中的爬虫主要分为传统爬虫和聚焦爬虫,但不管是传统爬虫,还是聚焦爬虫,它们向目标网站的抓取频率都是固定的,这会使得一些反爬虫程序通过固定抓取频率这一特征轻易的识别出爬虫,从而拒绝爬虫的访问或进行一些机器人验证的工作,导致爬虫的功能失效。
技术实现思路
为解决上述技术问题,本专利技术提供了一种资源下载系统、方法及爬虫下载系统,以实现以随机的抓取频率抓取资源,从而降低被反爬虫程序识别的概率的目的。为实现上述技术目的,本专利技术实施例提供了如下技术方案:一种资源下载系统,用于为爬虫提供令牌,所述资源下载系统包括:数据库和随机令牌生成器,其中,所述随机令牌生成器用于接收到生成请求后生成令牌并存储于所述数据库中,所述随机令牌生成器生成的令牌的时间戳增加值的取值范围根据所述爬虫对站点的每秒查询率确定,所述令牌的时间戳根 ...
【技术保护点】
一种资源下载系统,其特征在于,用于为爬虫提供令牌,所述资源下载系统包括:数据库和随机令牌生成器,其中,所述随机令牌生成器用于接收到生成请求后生成令牌并存储于所述数据库中,所述随机令牌生成器生成的令牌的时间戳增加值的取值范围根据所述爬虫对站点的每秒查询率确定,所述令牌的时间戳根据当前时刻的时间戳和所述时间戳增加值确定;所述数据库用于存储预设数量的令牌,并在存储的令牌被所述爬虫消费后向所述随机令牌生成器发送生成请求。
【技术特征摘要】
1.一种资源下载系统,其特征在于,用于为爬虫提供令牌,所述资源下载系统包括:数据库和随机令牌生成器,其中,所述随机令牌生成器用于接收到生成请求后生成令牌并存储于所述数据库中,所述随机令牌生成器生成的令牌的时间戳增加值的取值范围根据所述爬虫对站点的每秒查询率确定,所述令牌的时间戳根据当前时刻的时间戳和所述时间戳增加值确定;所述数据库用于存储预设数量的令牌,并在存储的令牌被所述爬虫消费后向所述随机令牌生成器发送生成请求。2.根据权利要求1所述的资源下载系统,其特征在于,所述随机令牌生成器接收到生成请求后生成令牌时,具体用于,将所述爬虫对站点的每秒查询率代入预设公式中计算获得最大随机数;根据所述最大随机数随机确定待生成令牌的时间戳增加值;根据当前时刻的时间戳和所述待生成令牌的时间戳增加值确定待生成令牌的时间戳;根据所述待生成令牌的时间戳生成令牌;所述预设公式为其中N表示最大随机数,qps表示所述爬虫对站点的每秒查询率。3.根据权利要求1所述的资源下载系统,其特征在于,当所述数据库为Redis时,所述数据库和随机令牌生成器的功能基于redislua脚本,以使所述数据库和随机令牌生成器的每个操作都是原子操作。4.根据权利要求3所述的资源下载系统,其特征在于,所述数据库以有序集存储所述令牌。5.一种爬虫下载系统,其特征在于,包括如权利要求1-4任一项所述的资源下载系统。6.一种资源下载方法,其特征在于,应用于数据...
【专利技术属性】
技术研发人员:帅伟良,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。