System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种HTTP代理服务的方法及系统技术方案_技高网

一种HTTP代理服务的方法及系统技术方案

技术编号:40133738 阅读:6 留言:0更新日期:2024-01-23 22:32
本发明专利技术实施例提供一种HTTP代理服务的方法及系统,该方法包括:接收用户发起的使用HTTP代理服务作为爬虫的第一请求,为第一请求分配一个HTTP代理服务作为目标HTTP代理服务;目标HTTP代理服务将第一请求转化为基于HTTP协议的第二请求,并将第二请求转发到与各目标URL相对应的目标服务器,在目标服务器抓取各目标URL对应的网页数据的过程中,将满足代理规则的网页数据及对应的目标URL作为目标服务器的响应数据;将响应数据返回给用户。在接收用户发起的使用HTTP代理服务作为爬虫的第一请求后,合理动态调度已有的多个HTTP代理服务可为爬虫提供较优化的代理,减少爬虫访问目标URL的等待时间,进而提高爬虫抓取网页数据的效率。

【技术实现步骤摘要】

本专利技术涉及互联网领域,具体涉及一种http代理服务的方法及系统。


技术介绍

1、互联网拥有着海量的资源,为了有效地提取并利用这些资源,产生了爬虫系统。爬虫是搜索引擎技术的基础组成部分,爬虫从一个或若干个初始网页的url(uniformresourcelocator,统一资源定位符)开始,获得初始网页上的url,在抓取网页数据的过程中,根据预置的网页抓取策略不断地从当前页面上抽取新的url放入队列,直到满足某种停止条件后将抓取到的网页数据存储于搜索引擎的服务器中,以达到可以加快用户的搜索速度的目的。

2、爬虫系统用于自动化地从互联网抓取特定的资源,它从一个或一批统一资源定位符(url,uniform resource locator)开始抓取,并进一步根据预定的规则从获取到的网络资源中提取新的url加入到抓取队列,直到满足某种停止条件。

3、许多网站对爬虫系统的频繁访问有限制并启用了一定的反爬虫技术,例如,当识别出某ip地址在指定时段内对网站的访问次数超出一定频次时,将拒绝该ip地址的请求或者跳转到验证码页面。为此,爬虫系统多采用分布式技术,比如利用多ip地址并发请求来模拟真实用户的行为。在ip地址资源有限的情况下,一些爬虫系统通过利用代理以模拟多ip地址的请求。

4、在实现本专利技术过程中,申请人发现现有技术中至少存在如下问题:

5、相比爬虫系统所请求的海量网络资源数目,代理的数目是非常少的。因此,如何能利用速度快、稳定性好的代理,以提高爬虫系统的网络资源抓取效率是目前亟待解决的问题。


技术实现思路

1、本专利技术实施例提供一种http代理服务的方法及系统,能够解决现有技术中爬虫系统难以应对请求对应的海量网络资源数目的技术问题。

2、为达上述目的,一方面,本专利技术实施例提供一种http代理服务的方法,包括:

3、接收用户发起的使用http代理服务作为爬虫的第一请求,为所述第一请求分配一个http代理服务作为目标http代理服务;其中,每个http代理服务独立运行在容器化部署的虚拟环境中;

4、所述目标http代理服务将所述第一请求转化为基于http协议的第二请求,并将所述第二请求转发到与各目标url相对应的目标服务器,在所述目标服务器抓取各目标url对应的网页数据的过程中,将满足代理规则的网页数据及对应的目标url作为目标服务器的响应数据;其中,所述目标url是对应的网页数据满足所述第一请求的url;

5、将所述响应数据返回给用户。

6、另一方面,本专利技术实施例提供一种http代理服务的系统,包括api网关、注册服务中心、至少一个http代理服务,其中:

7、所述api网关,用于接收用户发起的使用http代理服务作为爬虫的第一请求,以及将响应数据返回给用户;

8、所述注册服务中心,用于为所述第一请求分配一个http代理服务作为目标http代理服务;其中,每个http代理服务独立运行在容器化部署的虚拟环境中;

9、所述目标http代理服务,用于将所述第一请求转化为基于http协议的第二请求,并将所述第二请求转发到与各目标url相对应的目标服务器,在所述目标服务器抓取各目标url对应的网页数据的过程中,将满足代理规则的网页数据及对应的目标url作为目标服务器的响应数据;其中,所述目标url是对应的网页数据满足所述第一请求的url。

10、上述技术方案具有如下有益效果:在接收用户发起的使用http代理服务作为爬虫的第一请求后,合理动态调度已有的多个http代理服务,确定目标http代理服务,可为爬虫提供较优化的代理,减少爬虫访问目标url的等待时间,且可有效规避网站预先设置的限制访问时间间隔的限制,提高爬虫访问目标url的效率,进而提高爬虫抓取网页数据的效率。

本文档来自技高网...

【技术保护点】

1.一种HTTP代理服务的方法,其特征在于,包括:

2.根据权利要求1所述的HTTP代理服务的方法,其特征在于,还包括:

3.根据权利要求2所述的HTTP代理服务的方法,其特征在于,所述接收用户发起的使用HTTP代理服务作为爬虫的第一请求,为所述第一请求分配一个HTTP代理服务作为目标HTTP代理服务,包括:

4.根据权利要求3所述的HTTP代理服务的方法,其特征在于,还包括:

5.根据权利要求1所述的HTTP代理服务的方法,其特征在于,还包括:

6.根据权利要求1所述的HTTP代理服务的方法,其特征在于,还包括:

7.一种HTTP代理服务的系统,其特征在于,包括API网关、注册服务中心、至少一个HTTP代理服务,其中:

8.根据权利要求7所述的HTTP代理服务的系统,其特征在于,所述服务注册中心,还用于:

9.根据权利要求8所述的HTTP代理服务的系统,其特征在于,

10.根据权利要求9所述的HTTP代理服务的系统,其特征在于,还包括服务链路追踪单元,所述服务链路追踪单元用于:

11.根据权利要求7所述的HTTP代理服务的系统,其特征在于,还包括:

12.根据权利要求7所述的HTTP代理服务的系统,其特征在于,还包括:

...

【技术特征摘要】

1.一种http代理服务的方法,其特征在于,包括:

2.根据权利要求1所述的http代理服务的方法,其特征在于,还包括:

3.根据权利要求2所述的http代理服务的方法,其特征在于,所述接收用户发起的使用http代理服务作为爬虫的第一请求,为所述第一请求分配一个http代理服务作为目标http代理服务,包括:

4.根据权利要求3所述的http代理服务的方法,其特征在于,还包括:

5.根据权利要求1所述的http代理服务的方法,其特征在于,还包括:

6.根据权利要求1所述的http代理服务的方法,其特征在于,还包括:

【专利技术属性】
技术研发人员:聂彦超邱春武
申请(专利权)人:新浪技术中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1