一种网页爬虫协作方法技术

技术编号：7391769 阅读：239 留言：0更新日期：2012-06-02 06:43

本发明专利技术公开了一种网页爬虫协作方法，所述的方法步骤如下：首先，爬虫节点依据在线时间段形成若干采集组，所有的各采集组能实现一个周期的连续在线；然后，采集组间通过消息交换的方法采集网页；最后，所有的采集组协作存储被采集的网页。所述每个采集组采用自动生成或配置的方式得到对应于该采集组的ID号。消息交换的方法可采用：各采集组形成一个路由网络，节点依据路由信息表将信令或消息发送到另一个采集组；其中，所述路由网络中的路由协议可采用IP网络路由中的路由协议，或对等网络中的各种DHT协议；或采用中心控制消息交换方法。本发明专利技术可解决采集设备中心化面临的带宽问题和网页的海量存储问题，解决P2P采集的时间可持续问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息网络
，特别涉及。
技术介绍
如今互联网搜索引擎成为人们日常生活不可或缺的一种工具，如谷歌、百度、搜狗、人民搜索等。搜索资讯、学习、疑难问题解答、广告等等，搜索引擎业务渗透到生活的方方面面。在搜索引擎中，至关重要的一步是相关信息的采集获取，在互联网上则典型地体现为网页的采集。网页的采集经历了几个阶段。第一个阶段是单主机采集阶段，这是典型的中心处理方式；第二个阶段是多台主机协作的集群采集阶段，其特征表现为这些主机处于一个 IDC机房或高速互联的网络之中，其间通信不会成为问题，同时各主机是长在线的，有一台控制主机；第三个阶段是相距较远的多台主机协作的P2P采集阶段，其特征表现为这些主机是由相关机构无偿奉献的，意图促进对等协作，主机呈现长时间在线特征，没有中心控制点ο上述三个阶段除第一个阶段处在第二阶段、第三阶段之前、由于明显的单机处理能力等缺陷而被淘汰之外，第二、三阶段是并行的，是由两种主导思路决定的，严格说来是分布式网页采集的两种实现比较合适，集群采集是由公司主导的，其目的是靠搜索得来的信息赢利，P2P采集是P2P搜索引擎的基础，完全是一种社会化网络行为，其作用在于抵消公司主导搜索引擎的弊端。另外，随着用户终端资源能力的日益增强，其资源在开机的大部分时间内处于空闲运行状态，浪费非常严重；同时这些终端的在线呈现不同的周期性特征(例如日(day)周期、周(week)周期)，在线时长则一般随用户不同而呈现准常数周期变化。在现有技术中，由一台主机负责一定范围内(如IP地址或域名某个区段内网站内容采集)的网页爬取和更新，并通过存储接口存储在...

【技术保护点】

【技术特征摘要】
...

【专利技术属性】
技术研发人员：王劲林，王玲芳，邓峰，齐向东，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人