一种服务于互联网数据采集的代理IP请求频率自动调整方法技术

技术编号:25894214 阅读:26 留言:0更新日期:2020-10-09 23:40
本发明专利技术涉及一种服务于互联网数据采集的代理IP请求频率自动调整方法,包括如下步骤:根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间。本发明专利技术的技术方案可以控制不同优劣程度的代理IP的请求访问频率;将好用的的代理的访问频率加大,将不好用的代理的访问频率减小或不使用;从宏观上减少垃圾代理的使用时间,从而增加单位时间内代理的任务下载量,提高爬虫的效率。

【技术实现步骤摘要】
一种服务于互联网数据采集的代理IP请求频率自动调整方法
本专利技术数据检索领域,特别涉及一种服务于互联网数据采集的代理IP请求频率自动调整方法。
技术介绍
在互联网数据采集技术中,搭建IP代理池并使用不同的代理IP轮流进行爬取为常见技术。然而,公网代理具有不稳定和时效性差的特性,因此有必要对代理的使用进行优先级排序。CN107957999A,主要目的在于保证大部分使用的代理IP有效并多次利用,并在已有的代理IP失效时,通过动态获取新的代理IP,进行筛选替换失效的代理IP,但是其无法控制不同优劣程度的代理IP的请求访问频率,无法在代理可用状态下最大限度使用代理。
技术实现思路
为了解决本专利技术所提出的技术问题,本专利技术一方面提供了一种服务于互联网数据采集的代理IP请求频率自动调整方法,包括如下步骤:根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率,提高单位时间内优质代理的使用率;所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间。本专利技术另外一方面提供了一种服务于互联网数据采集的代理IP请求频率自动调整系统,所述系统配配置为:根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间。本专利技术的有益效果在于,可以控制不同优劣程度的代理IP的请求访问频率;将好用的的代理的访问频率加大,将不好用的代理的访问频率减小或不使用;从宏观上减少垃圾代理的使用时间,从而增加单位时间内代理的任务下载量,提高爬虫的效率。附图说明图1.快速达到极限间隔时间示意图;图2.自动频率调整流程图。具体实施方式在一些服务于互联网数据采集的代理IP请求频率自动调整方法的实施例中,包括如下步骤:根据代理IP属性,通过监控代理IP当前的下载时间t来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率f;其中,间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间;代理IP的请求访问频率f与间隔时间T的关系满足:f=1/T。在一些实施例中,代理IP属性包括但不限于等级名称level_name、等级level、间隔时间wait_time、最后访问时间last_time、代理类型proxy_type、网站名websit、原始间隔时间origin_wait_time中的一种或多种。等级名称level_name根据代理的下载时间划分;等级level是等级名称的数字表示,比如1、2、3、4、5;间隔时间wait_time是代理的实时等待时间;最后访问时间last_time是代理最新的使用时间,该代理下次使用时间大于等于last_time+wait_time;代理类型proxy_type分为公网代理和稳定代理;网站名websit是代理对应的网站名称;原始间隔时间origin_wait_time是网站访问频率测试得到的最佳等待时间,在一些实施例中,所述原始间隔时间为常量,根据本专利技术的构思选择的计算该常量的算法均在本专利技术的保护范围之内。在一些实施例中,当实时等待时间N等于极限间隔时间时,所述间隔时间T按照极限间隔时间调整,所述极限间隔时间表示公式为:T=N极限=n+(L-1)2(式1)其中,N极限表示是指每个等级的最大间隔时间,n表示原始间隔时间,L表示根据当前的下载时间t划分的等级数值(为大于1的自然数,其中数字越小等级越高)。当前等待时间N,是当前代理的实时等待时间,用N表示。在另外一些实施例中,代理IP属性还包括等级计数level_count,所述等级计数level_count是当前等级下的连续访问次数。在这些实施例中,当实时等待时间N小于极限间隔时间时,所述间隔时间T的调整过程的公式表示为:其中,N表示实时等待时间,s为系数且0<s<1,优选的为0.1,C表示当前等级次数。下面一些实施例进一步对本专利技术进行说明。在这些实施例中,先明确两个时间:1.间隔时间,是代理从上次使用完毕到下次使用开始的中间时间。2.下载时间,是代理实际发出一个请求到接受返回结果的时间。本专利技术实施例中调整请求频率的目的之一是将好用的的代理的访问频率加大,将不好用的代理的访问频率减小或不使用。这样做的目的是从宏观上减少垃圾代理的使用时间,从而增加单位时间内代理的任务下载量,提高爬虫的效率。在这些实施例中,为了达到实时控制代理IP的间隔时间T的目的,需要给代理IP添加如下所示属性,如表1所示:表1代理IP添加的属性列表level_name等级名称level等级level_count等级计数wait_time间隔时间last_time最后访问时间proxy_type代理类型websit网站名origin_wait_time原始间隔时间其中,【等级名称】根据代理的【下载时间】划分;【等级】是等级名称的数字表示;【等级计数】是当前等级下的连续访问次数;【间隔时间】是代理的实时【等待时间】;【最后访问时间】是代理最新的使用时间;【代理类型】分为公网代理和稳定代理;【网站名】是代理对应的网站名称;【原始间隔时间】是《网站访问频率测试》得到的最佳【等待时间】。在这些实施例中,根据代理IP的属性,通过监控代理IP当前的【下载时间】来实时调整其【间隔时间】,从而控制不同优劣程度的代理的请求访问频率。计算方式如表2所示:表2:计算方式等级等级数值L等级对应下载时间极限间隔时间当前间隔时间当前等级次数时间增加减少幅度正常10s-1sn+(L-1)^2NC(0.1*c^2)sor0sor无穷大稍慢21s-2sn+(L-1)^2NC(0.1*c^2)sor0sor无穷大慢32s-4sn+(L-1)^2NC(0.1*c^2)sor0sor无穷大很慢44s-8sn+(L-1)^2NC(0.1*c^2)sor0sor无穷大失效...

【技术保护点】
1.一种服务于互联网数据采集的代理IP请求频率自动调整方法,其特征在于,包括如下步骤:/n根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;/n所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间。/n

【技术特征摘要】
1.一种服务于互联网数据采集的代理IP请求频率自动调整方法,其特征在于,包括如下步骤:
根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;
所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间。


2.如权利要求1所述的方法,其特征在于,所述代理IP属性包括等级名称level_name、等级level、间隔时间wait_time、最后访问时间last_time、代理类型proxy_type、网站名websit、原始间隔时间origin_wait_time中的一种或多种。


3.如权利要求2所述的方法,其特征在于,所述等级名称level_name根据代理的下载时间划分;所述等级level是等级名称的数字表示;所述间隔时间wait_time是代理的实时等待时间;所述最后访问时间last_time是代理最新的使用时间;所述代理类型proxy_type分为公网代理和稳定代理;所述网站名websit是代理对应的网站名称;所述原始间隔时间origin_wait_time是网站访问频率测试得到的最佳等待时间。


4.如权利要求3所述的方法,其特征在于,当等待时间N等于极限间隔时间时,所述间隔时间T按照极限间隔时间调整,所述极限间隔时间表示公式为:
T=N极限=n+(L-1)2(式1)
其中,N极限表示是指每个等级的最大间隔时间,n表示原始间隔时间,L表示等级数值(为大于1的自然数,其中数字越小等级越高)。


5.如权利要求4所述的方法,其特征在于,所述代理IP属性还包括等级计数level_count,所述等级计数level_count是当前等级下的连续访问次数。


6.如权利要求5所述的方法,其特征在于,当等待时间N小于极限间隔时间时,所述间隔时间T的调整过程的公式表示为:



其中,N表示当前代理的等待时间,s为系数且0<s<1,C表示当...

【专利技术属性】
技术研发人员:范晓忻文章吴广良
申请(专利权)人:金电联行北京信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1