【技术实现步骤摘要】
一种网络代理的质量评估方法、装置、存储介质及处理器
本专利技术涉及数据处理
,特别是涉及一种网络代理的质量评估方法、一种网络代理的质量评估装置、一种存储介质及一种处理器。
技术介绍
随着网络技术的迅速发展,网络成为大量信息的载体,为了解决抓取网页资源的问题,爬虫应运而生。网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。但是许多站点为了防止网络爬虫所带来的系统压力,会在服务器上针对访问者设置访问频率的限制,还会判断访问者是否为网络爬虫,并将判断为网络爬虫的访问者列入黑名单,以阻止其频繁访问。为了应对反爬虫技术,爬虫可以使用网络代理来伪装成更多的客户端,绕开目标站点针对客户端访问频率的限制,由网络代理实现网页下载,但目前网络代理的来源通常是从网络代理服务商获取,但是网络代理服务商并不能掌握网络代理真实的可用性情况,甚至有些网络代理已经被站点列入黑名单,导致爬虫无法高效的爬取到所需的网络数据。
技术实现思路
鉴于上述问题,提出了一种网络代 ...
【技术保护点】
1.一种网络代理的质量评估方法,其特征在于,包括:/n获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,所述多个目标网络代理包括:优先级不同的多个网络代理,所述多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高;/n根据所述代理使用结果,对所述目标网络代理的质量进行评估。/n
【技术特征摘要】
1.一种网络代理的质量评估方法,其特征在于,包括:
获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,所述多个目标网络代理包括:优先级不同的多个网络代理,所述多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高;
根据所述代理使用结果,对所述目标网络代理的质量进行评估。
2.根据权利要求1所述的方法,其特征在于,所述优先级不同的多个网络代理存储于不同的网络代理池中,在所述获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果之前,所述方法还包括:
按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理;和/或,
采用所述目标网络代理在所述目标站点上进行数据爬取。
3.根据权利要求2所述的方法,其特征在于,同一网络代理池中存储的网络代理的优先级相同,所述按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理,包括:
确定待选择的网络代理的总数量,以及每个优先级的网络代理的占比;
根据所述总数量和所述占比,计算每个优先级的网络代理的数量;
根据所述每个优先级的网络代理的数量,从存储对应优先级的网络代理池中分别选择相应数量的网络代理;和/或,
所述优先级不同的多个网络代理包括:第一优先级的网络代理和第二优先级的网络代理,所述第一优先级高于所述第二优先级,所述第一优先级的网络代理存储于第一网络代理池中,所述第二优先级的网络代理存储于第二网络代理池中,所述按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理,包括:
确定待选择的网络代理的总数量,以及第一优先级的网络代理的第一数量;
根据所述总数量和所述第一数量,计算第二优先级的网络代理的第二数量;
从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理。
4.根据权利要求3所述的方法,其特征在于,所述多个目标网络代理中还包括:优先级未知的网络代理,所述优先级未知的网络代理存储于第三网络代理池中,在计算第二优先级的网络代理的第二数量之后,所述方法还包括:
判断所述第二网络代理池中存储的网络代理的数量是否小于所述第二数量;
如果不小于,则转入执行从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理的步骤;
如果小于,则计算所述第二数量与所述第二网络代理池中存储的网络代理的数量的差值,并从所述第一网络代理池中选...
【专利技术属性】
技术研发人员:武玉博,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。