一种网络代理的质量评估方法、装置、存储介质及处理器制造方法及图纸

技术编号:25479943 阅读:50 留言:0更新日期:2020-09-01 23:01
本发明专利技术公开了一种网络代理的质量评估方法和装置。所述方法包括:获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,根据代理使用结果,对目标网络代理的质量进行评估,其中,多个目标网络代理包括:优先级不同的多个网络代理,多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高,实现了在数据爬取的过程中,较多使用质量高的网络代理,较少使用质量低的网络代理,减少了质量高的网络代理因使用频率过高而被列入黑名单的机会,同时避免了质量低的网络代理的质量提升后无法被发现的问题,使得网络代理总体上得到更加均衡的使用,继而提高了爬取网络数据的效率。

【技术实现步骤摘要】
一种网络代理的质量评估方法、装置、存储介质及处理器
本专利技术涉及数据处理
,特别是涉及一种网络代理的质量评估方法、一种网络代理的质量评估装置、一种存储介质及一种处理器。
技术介绍
随着网络技术的迅速发展,网络成为大量信息的载体,为了解决抓取网页资源的问题,爬虫应运而生。网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。但是许多站点为了防止网络爬虫所带来的系统压力,会在服务器上针对访问者设置访问频率的限制,还会判断访问者是否为网络爬虫,并将判断为网络爬虫的访问者列入黑名单,以阻止其频繁访问。为了应对反爬虫技术,爬虫可以使用网络代理来伪装成更多的客户端,绕开目标站点针对客户端访问频率的限制,由网络代理实现网页下载,但目前网络代理的来源通常是从网络代理服务商获取,但是网络代理服务商并不能掌握网络代理真实的可用性情况,甚至有些网络代理已经被站点列入黑名单,导致爬虫无法高效的爬取到所需的网络数据。
技术实现思路
鉴于上述问题,提出了一种网络代理的质量评估方法、装本文档来自技高网...

【技术保护点】
1.一种网络代理的质量评估方法,其特征在于,包括:/n获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,所述多个目标网络代理包括:优先级不同的多个网络代理,所述多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高;/n根据所述代理使用结果,对所述目标网络代理的质量进行评估。/n

【技术特征摘要】
1.一种网络代理的质量评估方法,其特征在于,包括:
获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,所述多个目标网络代理包括:优先级不同的多个网络代理,所述多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高;
根据所述代理使用结果,对所述目标网络代理的质量进行评估。


2.根据权利要求1所述的方法,其特征在于,所述优先级不同的多个网络代理存储于不同的网络代理池中,在所述获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果之前,所述方法还包括:
按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理;和/或,
采用所述目标网络代理在所述目标站点上进行数据爬取。


3.根据权利要求2所述的方法,其特征在于,同一网络代理池中存储的网络代理的优先级相同,所述按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理,包括:
确定待选择的网络代理的总数量,以及每个优先级的网络代理的占比;
根据所述总数量和所述占比,计算每个优先级的网络代理的数量;
根据所述每个优先级的网络代理的数量,从存储对应优先级的网络代理池中分别选择相应数量的网络代理;和/或,
所述优先级不同的多个网络代理包括:第一优先级的网络代理和第二优先级的网络代理,所述第一优先级高于所述第二优先级,所述第一优先级的网络代理存储于第一网络代理池中,所述第二优先级的网络代理存储于第二网络代理池中,所述按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理,包括:
确定待选择的网络代理的总数量,以及第一优先级的网络代理的第一数量;
根据所述总数量和所述第一数量,计算第二优先级的网络代理的第二数量;
从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理。


4.根据权利要求3所述的方法,其特征在于,所述多个目标网络代理中还包括:优先级未知的网络代理,所述优先级未知的网络代理存储于第三网络代理池中,在计算第二优先级的网络代理的第二数量之后,所述方法还包括:
判断所述第二网络代理池中存储的网络代理的数量是否小于所述第二数量;
如果不小于,则转入执行从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理的步骤;
如果小于,则计算所述第二数量与所述第二网络代理池中存储的网络代理的数量的差值,并从所述第一网络代理池中选...

【专利技术属性】
技术研发人员:武玉博
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1