网页内容获取方法及装置制造方法及图纸

技术编号:11179790 阅读:49 留言:0更新日期:2015-03-25 09:28
本公开提供网页内容获取方法及装置,所述方法包括:获取网络请求,所述网络请求中包含下载地址;将所述网络请求转发给开放代理服务器;接收所述开放代理服务器根据所述下载地址从内容服务器获得的网页内容。本公开中正向代理服务器可以利用网络中开放代理服务器的开放代理资源获取下载终端请求下载的网页内容,从而可以充分利用网络中的IP地址资源来满足搜索引擎对网页内容的抓取需求,提高了网页内容的获取效率。

【技术实现步骤摘要】
网页内容获取方法及装置
本公开涉及网络通信
,尤其涉及网页内容获取方法及装置。
技术介绍
搜索引擎是通过从互联网中搜集信息,以便向用户提供检索服务的系统,上述信 息主要指各种网站提供的网页内容,通常搜索引擎服务器可以通过爬虫(spider)程序对 一定公网IP(Internet Protocol,互联网协议)地址范围内的网站服务器进行检索,从而 抓取网页内容。但是,多数网站服务器为了缓解访问压力,通常会对来自同一 IP地址的搜 索引擎服务器所提供的爬虫程序的访问频率进行限制。因此,相关技术中,搜索引擎服务器 会将网页内容抓取任务分发给分配了不同公网IP地址的下载终端,通过多个下载终端同 时抓取网页内容,以避免网站服务器的访问限制。 但是,由于公网IP地址资源有限,相应能够分配给下载终端的IP地址的数量也有 限,因此通过有限的IP地址资源难以满足搜索引擎对网页内容的抓取需求,从而导致搜索 引擎的网页内容抓取效率不高。
技术实现思路
本公开提供了网页内容获取方法及装置,以解决相关技术中网页内容获取效率不 高的问题。 根据本公开实施例的第一方面,提供一种网页内容获取方法,所述方法包括: 获取网络请求,所述网络请求中包含下载地址; 将所述网络请求转发给开放代理服务器; 接收所述开放代理服务器根据所述下载地址从内容服务器获得的网页内容。 可选的,所述方法还包括: 预先设置代理服务列表,所述代理服务列表中包含网络中开放代理服务器的互联 网协议IP地址和端口号; 根据所述网络中开放代理服务器的变化情况更新所述代理服务列表。 可选的,所述根据所述网络中开放代理服务器的变化情况更新所述代理服务列 表,包括: 按照预设的第一时间周期,从代理信息提供服务器获取所述网络中新增的开放代 理服务器的IP地址和端口号; 将所述新增的开放代理服务器的IP地址和端口号添加到所述代理服务列表中。 可选的,所述根据所述网络中开放代理服务器的变化情况更新所述代理服务列 表,包括: 按照预设的第二时间周期,根据所述代理服务列表中的IP地址和端口号访问对 应的开放代理服务器; 将未返回访问应答的开放代理服务器的IP地址和端口号从所述代理服务列表中 删除。 可选的,所述将所述网络请求转发给开放代理服务器,包括: 从所述代理服务列表中为所述网络请求选择目标IP地址和端口号; 将所述网络请求发送到所述目标IP地址和端口号指向的目标代理服务器上的目 标端口。 可选的,按照如下任一方式,从所述代理服务列表中为所述网络请求选择目标IP 地址和端口号: 从所述代理服务列表中为所述网络请求随机选择至少一个目标IP地址和端口 号;或者, 从所述代理服务列表中按照开放代理服务器的权重从高到低的顺序选择至少一 个目标IP地址和端口号。 根据本公开实施例的第二方面,提供另一种网页内容获取方法,所述方法包括: 向正向代理服务器发送网络请求,以使所述正向代理服务器将所述网络请求转发 给开放代理服务器,所述网络请求中包含下载地址; 接收所述正向代理服务器返回的网页内容,所述网页内容为所述开放代理服务器 根据所述下载地址从内容服务器获得的网页内容。 可选的,所述向正向代理服务器发送网络请求,包括: 获取预先配置的所述正向代理服务器的IP地址和端口号; 按照所述IP地址和端口号,将所述网络请求发送到所述正向代理服务器上与所 述端口号对应的端口。 根据本公开实施例的第三方面,提供一种网页内容获取装置,所述装置包括: 获取单元,用于获取网络请求,所述网络请求中包含下载地址; 转发单元,用于将所述网络请求转发给开放代理服务器; 接收单元,用于接收所述开放代理服务器根据所述下载地址从内容服务器获得的 网页内容。 可选的,所述装置还包括: 设置单元,用于预先设置代理服务列表,所述代理服务列表中包含网络中开放代 理服务器的互联网协议IP地址和端口号; 更新单元,用于根据所述网络中开放代理服务器的变化情况更新所述代理服务列 表。 可选的,所述更新单元包括: 新增代理获取子单元,用于按照预设的第一时间周期,从代理信息提供服务器获 取所述网络中新增的开放代理服务器的IP地址和端口号; 代理信息添加子单元,用于将所述新增的开放代理服务器的IP地址和端口号添 加到所述代理服务列表中。 可选的,所述更新单元包括: 开放代理访问子单元,用于按照预设的第二时间周期,根据所述代理服务列表中 的IP地址和端口号访问对应的开放代理服务器; 代理信息删除子单元,用于将未返回访问应答的开放代理服务器的IP地址和端 口号从所述代理服务列表中删除。 可选的,所述获取单元包括: 代理信息选择子单元,用于从所述代理服务列表中为所述网络请求选择目标IP 地址和端口号; 网络请求发送子单元,用于将所述网络请求发送到所述目标IP地址和端口号指 向的目标代理服务器上的目标端口。 可选的,所述代理信息选择子单元包括至少一个下述模块: 随机选择模块,用于从所述代理服务列表中为所述网络请求随机选择至少一个目 标IP地址和端口号; 权重选择模块,用于从所述代理服务列表中按照开放代理服务器的权重从高到低 的顺序选择至少一个目标IP地址和端口号。 根据本公开实施例的第四方面,提供另一种网页内容获取装置,所述装置包括: 发送单元,用于向正向代理服务器发送网络请求,以使所述正向代理服务器将所 述网络请求转发给开放代理服务器,所述网络请求中包含下载地址; 接收单元,用于接收所述正向代理服务器返回的网页内容,所述网页内容为所述 开放代理服务器根据所述下载地址从内容服务器获得的网页内容。 可选的,所述发送单元包括: 代理信息获取子单元,用于获取预先配置的所述正向代理服务器的IP地址和端 口号; 网络请求发送子单元,用于按照所述IP地址和端口号,将所述网络请求发送到所 述正向代理服务器上与所述端口号对应的端口。 根据本公开实施例的第五方面,提供一种网页内容获取装置,包括:处理器;用于 存储处理器可执行指令的存储器;其中,所述处理器被配置为: 获取网络请求,所述网络请求中包含下载地址; 将所述网络请求转发给开放代理服务器; 接收所述开放代理服务器根据所述下载地址从内容服务器获得的网页内容。 根据本公开实施例的第六方面,提供一种网页内容获取装置,包括:处理器;用于 存储处理器可执行指令的存储器;其中,所述处理器被配置为: 向正向代理服务器发送网络请求,以使所述正向代理服务器将所述网络请求转发 给开放代理服务器,所述网络请求中包含下载地址; 接收所述正向代理服务器返回的网页内容,所述网页内容为所述开放代理服务器 根据所述下载地址从内容服务器获得的网页内容。 本公开的实施例提供的技术方案可以包括以下有益效果: 本公开中正向代理服务器在获取到包含下载地址的网络请求后,将网络请求转发 给网络中的开放代理服务器,该开放代理服务器根据下载地址从内容服务器获得网页内 容,并返本文档来自技高网...

【技术保护点】
一种网页内容获取方法,其特征在于,所述方法包括:获取网络请求,所述网络请求中包含下载地址;将所述网络请求转发给开放代理服务器;接收所述开放代理服务器根据所述下载地址从内容服务器获得的网页内容。

【技术特征摘要】
1. 一种网页内容获取方法,其特征在于,所述方法包括: 获取网络请求,所述网络请求中包含下载地址; 将所述网络请求转发给开放代理服务器; 接收所述开放代理服务器根据所述下载地址从内容服务器获得的网页内容。2. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 预先设置代理服务列表,所述代理服务列表中包含网络中开放代理服务器的互联网协 议IP地址和端口号; 根据所述网络中开放代理服务器的变化情况更新所述代理服务列表。3. 根据权利要求2所述的方法,其特征在于,所述根据所述网络中开放代理服务器的 变化情况更新所述代理服务列表,包括: 按照预设的第一时间周期,从代理信息提供服务器获取所述网络中新增的开放代理服 务器的IP地址和端口号; 将所述新增的开放代理服务器的IP地址和端口号添加到所述代理服务列表中。4. 根据权利要求2所述的方法,其特征在于,所述根据所述网络中开放代理服务器的 变化情况更新所述代理服务列表,包括: 按照预设的第二时间周期,根据所述代理服务列表中的IP地址和端口号访问对应的 开放代理服务器; 将未返回访问应答的开放代理服务器的IP地址和端口号从所述代理服务列表中删 除。5. 根据权利要求2所述的方法,其特征在于,所述将所述网络请求转发给开放代理服 务器,包括: 从所述代理服务列表中为所述网络请求选择目标IP地址和端口号; 将所述网络请求发送到所述目标IP地址和端口号指向的目标代理服务器上的目标端P。6. 根据权利要求5所述的方法,其特征在于,按照如下任一方式,从所述代理服务列表 中为所述网络请求选择目标IP地址和端口号: 从所述代理服务列表中为所述网络请求随机选择至少一个目标IP地址和端口号;或 者, 从所述代理服务列表中按照开放代理服务器的权重从高到低的顺序选择至少一个目 标IP地址和端口号。7. -种网页内容获取方法,其特征在于,所述方法包括; 向正向代理服务器发送网络请求,W使所述正向代理服务器将所述网络请求转发给开 放代理服务器,所述网络请求中包含下载地址; 接收所述正向代理服务器返回的网页内容,所述网页内容为所述开放代理服务器根据 所述下载地址从内容服务器获得的网页内容。8. 根据权利要求7所述的方法,其特征在于,所述向正向代理服务器发送网络请求,包 括: 获取预先配置的所述正向代理服务器的IP地址和端口号; 按照所述IP地址和端口号,将所述网络请求发送到所述正向代理服务器上与所述端 口号对应的端口。9. 一种网页内容获取装置,其特征在于,所述装置包括: 获取单元,用于获取网络请求,所述网络请求中包含下载地址; 转发单元,用于将所述网络请求转发给开放代理服务器; 接收单元,用于接收所述开放代理服务器根据所述下载地址从内容服务器获得的网页 内容。10. 根据权利要求9所述的装置,其特征在于,所述装置还包括: 设置单元,用于预先设置代理服务列表,所述代理服务列表中包含网络中开放代理服...

【专利技术属性】
技术研发人员:于胜军马哲谭国斌
申请(专利权)人:小米科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1