使用代理IP访问网站数据的方法、装置、系统和设备制造方法及图纸

技术编号:27886544 阅读:32 留言:0更新日期:2021-03-31 01:50
本申请涉及一种使用代理IP访问网站数据的方法、装置、系统和设备,其中所述方法包括接收终端发送的限制访问网站的第一域名;查询并获取与所述第一域名对应的未被限制的代理IP;将所述代理IP发送给所述终端,以使所述终端通过所述代理IP访问所述限制访问网站。本申请通过建立限制访问标签列表使单个代理IP可提供给多个不同域名的网站使用,同时为每个代理IP设置访问对应网站的冷却时间,降低网站对代理IP的限制几率,精确回收与释放代理IP,有效提高代理IP使用效率,降低成本。

【技术实现步骤摘要】
使用代理IP访问网站数据的方法、装置、系统和设备
本申请涉及网络数据
,尤其涉及一种使用代理IP访问网站数据的方法、装置、系统和设备。
技术介绍
随着互联网的发展,数据是非常重要的一种资产,爬虫系统则是有效获取数据的重要途径之一,目前,很多网站采取限制访问技术,使用同一个代理IP去访问网站数据,往往很容易被网站识别拉黑到黑名单中(限制该代理IP的访问频率),从而不能继续访问网站数据,因此,采用代理IP访问网站进行访问数据是有效途径之一,原理主要为:客户端首先与代理服务器创建连接,接着根据代理服务器所使用的代理协议,请求对目标服务器创建连接、或者获得目标服务器的指定资源。现有技术中,采用代理IP爬取网站数据时,如果被限制访问,将会直接将该代理IP拉入黑名单中,直接弃置这些代理IP,不会分配到任何其他网站使用,造成了资源浪费。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种使用代理IP访问网站数据的方法、装置、系统和设备,通过建立限制访问标签列表使单个代理IP可提供给多个不同域名的网站使用,提高代理IP使用效率。第一方面,本申请提供了一种使用代理IP访问网站数据的方法,包括:接收终端发送的限制访问网站的第一域名;查询并获取与所述第一域名对应的未被限制的代理IP;将所述代理IP发送给所述终端,以使所述终端通过所述代理IP访问所述限制访问网站。进一步的,所述查询并获取与所述第一域名对应的未被限制的代理IP步骤包括:<br>查询并获取代理IP,其中,与所述代理IP对应的限制访问代理列表中未包含所述第一域名。进一步的,所述查询并获取代理IP步骤包括:创建限制访问域名列表,所述限制访问域名列表包括限制访问网站的域名及与所述域名对应的代理IP;从服务器中获取代理IP;判断所述获取的代理IP是否为所述限制访问域名列表中与所述第一域名对应的代理IP,若不是,则选择所述代理IP。进一步的,所述从服务器中获取代理IP步骤包括:在所述服务器中随机获取或优先选取获取网站数据多的代理IP。进一步的,所述方法还包括:获取所述终端最后一次访问限制访问网站的限制访问时间,以及所述代理IP对应的冷却时间,其中,所述冷却时间为所述代理IP禁止访问所述第一域名的预设时间段;根据所述第一域名、限制访问时间及冷却时间生成限制访问标签;将所述限制访问标签添加到所述代理IP对应的限制访问代理列表中。进一步的,所述限制访问标签包括:与所述第一域名关联的第二域名。进一步的,所述方法还包括:从所述限制访问时间起经过所述冷却时间后:从所述代理IP限制访问代理列表中移除所述限制访问标签;从所述限制访问域名列表中移除所述代理IP及对应的限制访问域名。第二方面,本申请提供了一种使用代理IP访问网站数据的装置,包括:数据获取模块,用于接收终端发送的限制访问网站的第一域名;代理IP获取模块,用于查询并获取与所述第一域名对应的未被限制的代理IP;数据传输模块,用于将所述代理IP发送给所述终端,以使所述终端通过所述代理IP访问所述限制访问网站。另一方面,本申请提供了一种使用代理IP访问网站数据的系统,包括:终端,用于当所述终端检测到限制访问时,将被限制访问的待访问网站的第一域名发送到服务器;服务器,用于查询与所述第一域名对应的未被限制的代理IP;所述终端还用于接收所述服务器发送的代理IP,并通过所述代理IP访问所述待访问网站。本申请还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的方法。本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述计算机可读存储介质在计算机上运行时,使得所述计算机执行上述的方法。本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,通过建立限制访问标签列表使单个代理IP可提供给多个不同域名的网站使用,同时为每个代理IP设置访问对应网站的冷却时间,降低网站对代理IP的限制几率,精确回收与释放代理IP,有效提高代理IP使用效率,降低成本。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种使用代理IP访问网站数据的方法流程示意图;图2为本申请实施例提供的一种查询并获取代理IP流程示意图;图3为本申请实施例提供的一种代理IP对应的的限制访问代理列表代码示意图;图4为本申请实施例提供的一种将新的限制访问标签添加到代理IP对应的的限制访问代理列表代码示意图;图5为本申请实施例提供的一种使用代理IP访问网站数据的装置示意图;图6为本申请实施例提供的一种计算机内部结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。图1为本申请实施例提供的一种使用代理IP访问网站数据的方法流程示意图,参见图1,包括:S1、接收终端发送的限制访问网站的第一域名。具体的,当使用网络爬虫访问网站数据遭遇网站限制访问时,该网络爬虫会将限制访问网站的域名发送到服务器,例如www.example1.com,www.example2.com等。S2、查询并获取与所述第一域名对应的未被限制的代理IP。具体的,当网络爬虫将限制访问域名发送到服务器后,服务器会分配一个代理IP给该网络爬虫,网络爬虫使用代理IP访问该网站数据。如图2所示,S21、创建限制访问域名列表,所述限制访问域名列表包括限制访问网站的域名及与所述域名对应的代理IP。在分配代理IP前首先创建一个限制访问域名列表,该限制访问域名列表中存储有历史遇到限制访问的域名及服务器对应分配的代理IP,服务器每次接收到网络爬虫发送的限制访问域名时,就会将此限制访问域名与本次分配的对应代理IP存储在列表中。S22、从服务器中获取代理IP。具体可以从服务器的代理IP池中选择一个或多个代理IP,在此可以从代理IP池中随机选择,也可以根据预设条件优先选择满足预设条件的代理IP;例如将预设条件设为优先选取获取网站数据多的代理IP,或者按照代理IP的评分进行选择本文档来自技高网...

【技术保护点】
1.一种使用代理IP访问网站数据的方法,其特征在于,包括:/n接收终端发送的限制访问网站的第一域名;/n查询并获取与所述第一域名对应的未被限制的代理IP;/n将所述代理IP发送给所述终端,以使所述终端通过所述代理IP访问所述限制访问网站。/n

【技术特征摘要】
1.一种使用代理IP访问网站数据的方法,其特征在于,包括:
接收终端发送的限制访问网站的第一域名;
查询并获取与所述第一域名对应的未被限制的代理IP;
将所述代理IP发送给所述终端,以使所述终端通过所述代理IP访问所述限制访问网站。


2.根据权利要求1所述的方法,其特征在于,所述查询并获取与所述第一域名对应的未被限制的代理IP步骤包括:
查询并获取代理IP,其中,与所述代理IP对应的限制访问代理列表中未包含所述第一域名。


3.根据权利要求2所述的方法,其特征在于,所述查询并获取代理IP步骤包括:
创建限制访问域名列表,所述限制访问域名列表包括限制访问网站的域名及与所述域名对应的代理IP;
从服务器中获取代理IP;
判断所述获取的代理IP是否为所述限制访问域名列表中与所述第一域名对应的代理IP,若不是,则选择所述代理IP。


4.根据权利要求3所述的方法,其特征在于,所述从服务器中获取代理IP步骤包括:在所述服务器中随机获取或优先选取满足服务器预设条件的代理IP。


5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述终端最后一次访问限制访问网站的限制访问时间,以及所述代理IP对应的冷却时间,其中,所述冷却时间为所述代理IP禁止访问所述第一域名的预设时间段;
根据所述第一域名、限制访问时间及冷却时间生成限制访问标签;
将所述限制访问标签添加到所述代理IP对应的限制访问代理列表中。


6.根...

【专利技术属性】
技术研发人员:张鑫
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1