分布式网页下载方法和系统技术方案

技术编号：16353922 阅读：24 留言：0更新日期：2017-10-10 13:32

本发明专利技术提供了一种分布式网页下载方法和系统，所述方法包括：网络爬虫向任务调度服务单元发送网页下载请求；所述任务调度服务单元接收并将上述网页下载请求保存至第一消息队列；上网客户端从所述任务调度服务单元的第一消息队列获取一个网页下载请求，下载相应的网页数据，保存至所述任务调度服务单元的第二消息队列；所述任务调度服务单元将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫。本发明专利技术基于双消息队列的点对点分布式网页下载方式，可利用分散在各处的可上网机器来抓取网页，准实时响应网页下载请求，可有效的突破网站对并发下载请求的限制。

全部详细技术资料下载

【技术实现步骤摘要】
分布式网页下载方法和系统
本专利技术涉及计算机网络
，特别地，涉及一种分布式网页下载方法和系统。
技术介绍
分布式网页下载系统包含多个网络爬虫，每个网络爬虫都需要从互联网抓取网页数据并保存起来。所有的这些网络爬虫可能分布在不同的地理位置，根据其分散的程度不同，网络爬虫系统可以分为两大类：一类是基于局域网的分布式网络爬虫系统；另一类是基于广域网的分布式网络爬虫系统。在网页抓取项目中通常最缺的是IP地址资源，大多数网站，特别是特定领域的，如微博等，对抓取端会做限制，如同一IP地址的并发请求限制、一段时间内同一IP地址的访问次数限制等等。综上，不管基于上述何种机制，都需要突破网站对网络爬虫系统的IP限制，但IP资源往往是比较有限的，无法实现有效、快速下载网页的目标。
技术实现思路
本专利技术提供一种分布式网页下载方法，用于解决现有网页下载系统因IP地址资源有限造成的无法有效下载网页的问题。本专利技术还提供了一种分布式网页下载系统，以保证上述方法在实际中的应用。为了解决上述问题，本专利技术公开了一种分布式网页下载方法，执行所述方法的系统包括任务调度服务单元、2个以上的网络爬虫以及2个以上分布在不同地理位置具有不同IP地址的上网客户端，所述方法包括：所述网络爬虫向任务调度服务单元发送网页下载请求，所述下载请求参数包括所述网页的URL地址；所述任务调度服务单元接收并将上述网页下载请求保存至第一消息队列；所述上网客户端从所述任务调度服务单元的第一消息队列获取一个网页下载请求，根据所述URL地址下载相应的网页数据，保存至所述任务调度服务单元的第二消息队列；所述任务调度服...
分布式网页下载方法和系统

【技术保护点】
一种分布式网页下载方法，其特征在于，执行所述方法的系统包括任务调度服务单元、2个以上的网络爬虫以及2个以上分布在不同地理位置具有不同IP地址的上网客户端，所述方法包括：所述网络爬虫向任务调度服务单元发送网页下载请求，所述下载请求包括所述网页的URL地址；所述任务调度服务单元接收并将上述网页下载请求保存至第一消息队列；所述上网客户端从所述任务调度服务单元的第一消息队列获取一个网页下载请求，根据所述URL地址下载相应的网页数据，保存至所述任务调度服务单元的第二消息队列；所述任务调度服务单元将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫。

【技术特征摘要】
1.一种分布式网页下载方法，其特征在于，执行所述方法的系统包括任务调度服务单元、2个以上的网络爬虫以及2个以上分布在不同地理位置具有不同IP地址的上网客户端，所述方法包括：所述网络爬虫向任务调度服务单元发送网页下载请求，所述下载请求包括所述网页的URL地址；所述任务调度服务单元接收并将上述网页下载请求保存至第一消息队列；所述上网客户端从所述任务调度服务单元的第一消息队列获取一个网页下载请求，根据所述URL地址下载相应的网页数据，保存至所述任务调度服务单元的第二消息队列；所述任务调度服务单元将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫。2.如权利要求1所述的方法，其特征在于，在所述网络爬虫向任务调度服务单元发送网页下载请求步骤之前，还包括：所述网络爬虫向任务调度服务单元发起TCP连接，并保持连接，直至收到任务调度服务单元返回对应的网页数据。3.如权利要求1所述的方法，其特征在于，所述上网客户端从所述任务调度服务单元的第一消息队列获取一个网页下载请求，具体包括：判断所述第一消息队列是否为空；若是，则循环等待直至所述第一消息队列不为空；否则，所述任务调度服务单元从第一消息队列读取一个网页下载请求，并返回给所述上网客户端。4.如权利要求1所述的方法，其特征在于，所述任务调度服务单元将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫，具体包括：所述任务调度服务单元监听第二消息队列的状态，当有新的网页数据保存至第二消息队列时，读取该新的网页数据，并返回至请求网页下载的相应网络爬虫。5.如权利要求1所述的方法，其特征在于，向任务调度服务单元发起获取网页下载请求的上网客户端具有空闲的网络连接资源。6.一种分布式网页下载系统，其特征在于，包括任务调度服务单元、2个以上的网络爬虫以及2个以上分布在不同地理位置具有不同IP地址的上网客户端，所述任务调度服务单元与所述上网客户端通过因特网连接，其中：所述网络爬虫用于向任务调度服务单...

【专利技术属性】
技术研发人员：何培林，汤伟宾，陈晨，章正道，林胜通，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人