【技术实现步骤摘要】
一种服务于互联网数据采集的代理IP请求频率自动调整方法
本专利技术数据检索领域,特别涉及一种服务于互联网数据采集的代理IP请求频率自动调整方法。
技术介绍
在互联网数据采集技术中,搭建IP代理池并使用不同的代理IP轮流进行爬取为常见技术。然而,公网代理具有不稳定和时效性差的特性,因此有必要对代理的使用进行优先级排序。CN107957999A,主要目的在于保证大部分使用的代理IP有效并多次利用,并在已有的代理IP失效时,通过动态获取新的代理IP,进行筛选替换失效的代理IP,但是其无法控制不同优劣程度的代理IP的请求访问频率,无法在代理可用状态下最大限度使用代理。
技术实现思路
为了解决本专利技术所提出的技术问题,本专利技术一方面提供了一种服务于互联网数据采集的代理IP请求频率自动调整方法,包括如下步骤:根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率,提高单位时间内优质代理的使用率;所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间。本专利技术另外一方面提供了一种服务于互联网数据采集的代理IP请求频率自动调整系统,所述系统配配置为:根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理I
【技术保护点】
1.一种服务于互联网数据采集的代理IP请求频率自动调整方法,其特征在于,包括如下步骤:/n根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;/n所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间。/n
【技术特征摘要】
1.一种服务于互联网数据采集的代理IP请求频率自动调整方法,其特征在于,包括如下步骤:
根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;
所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间。
2.如权利要求1所述的方法,其特征在于,所述代理IP属性包括等级名称level_name、等级level、间隔时间wait_time、最后访问时间last_time、代理类型proxy_type、网站名websit、原始间隔时间origin_wait_time中的一种或多种。
3.如权利要求2所述的方法,其特征在于,所述等级名称level_name根据代理的下载时间划分;所述等级level是等级名称的数字表示;所述间隔时间wait_time是代理的实时等待时间;所述最后访问时间last_time是代理最新的使用时间;所述代理类型proxy_type分为公网代理和稳定代理;所述网站名websit是代理对应的网站名称;所述原始间隔时间origin_wait_time是网站访问频率测试得到的最佳等待时间。
4.如权利要求3所述的方法,其特征在于,当等待时间N等于极限间隔时间时,所述间隔时间T按照极限间隔时间调整,所述极限间隔时间表示公式为:
T=N极限=n+(L-1)2(式1)
其中,N极限表示是指每个等级的最大间隔时间,n表示原始间隔时间,L表示等级数值(为大于1的自然数,其中数字越小等级越高)。
5.如权利要求4所述的方法,其特征在于,所述代理IP属性还包括等级计数level_count,所述等级计数level_count是当前等级下的连续访问次数。
6.如权利要求5所述的方法,其特征在于,当等待时间N小于极限间隔时间时,所述间隔时间T的调整过程的公式表示为:
其中,N表示当前代理的等待时间,s为系数且0<s<1,C表示当...
【专利技术属性】
技术研发人员:范晓忻,文章,吴广良,
申请(专利权)人:金电联行北京信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。