一种网页爬虫协作方法技术

技术编号:7391769 阅读:239 留言:0更新日期:2012-06-02 06:43
本发明专利技术公开了一种网页爬虫协作方法,所述的方法步骤如下:首先,爬虫节点依据在线时间段形成若干采集组,所有的各采集组能实现一个周期的连续在线;然后,采集组间通过消息交换的方法采集网页;最后,所有的采集组协作存储被采集的网页。所述每个采集组采用自动生成或配置的方式得到对应于该采集组的ID号。消息交换的方法可采用:各采集组形成一个路由网络,节点依据路由信息表将信令或消息发送到另一个采集组;其中,所述路由网络中的路由协议可采用IP网络路由中的路由协议,或对等网络中的各种DHT协议;或采用中心控制消息交换方法。本发明专利技术可解决采集设备中心化面临的带宽问题和网页的海量存储问题,解决P2P采集的时间可持续问题。

【技术实现步骤摘要】

本专利技术涉及信息网络
,特别涉及。
技术介绍
如今互联网搜索引擎成为人们日常生活不可或缺的一种工具,如谷歌、百度、搜狗、人民搜索等。搜索资讯、学习、疑难问题解答、广告等等,搜索引擎业务渗透到生活的方方面面。在搜索引擎中,至关重要的一步是相关信息的采集获取,在互联网上则典型地体现为网页的采集。网页的采集经历了几个阶段。第一个阶段是单主机采集阶段,这是典型的中心处理方式;第二个阶段是多台主机协作的集群采集阶段,其特征表现为这些主机处于一个 IDC机房或高速互联的网络之中,其间通信不会成为问题,同时各主机是长在线的,有一台控制主机;第三个阶段是相距较远的多台主机协作的P2P采集阶段,其特征表现为这些主机是由相关机构无偿奉献的,意图促进对等协作,主机呈现长时间在线特征,没有中心控制点ο上述三个阶段除第一个阶段处在第二阶段、第三阶段之前、由于明显的单机处理能力等缺陷而被淘汰之外,第二、三阶段是并行的,是由两种主导思路决定的,严格说来是分布式网页采集的两种实现比较合适,集群采集是由公司主导的,其目的是靠搜索得来的信息赢利,P2P采集是P2P搜索引擎的基础,完全是一种社会化网络行为,其作用在于抵消公司主导搜索引擎的弊端。另外,随着用户终端资源能力的日益增强,其资源在开机的大部分时间内处于空闲运行状态,浪费非常严重;同时这些终端的在线呈现不同的周期性特征(例如日(day)周期、周(week)周期),在线时长则一般随用户不同而呈现准常数周期变化。在现有技术中,由一台主机负责一定范围内(如IP地址或域名某个区段内网站内容采集)的网页爬取和更新,并通过存储接口存储在本地、集中式存储或分布式系统内。上述集群采集方法面临采集带宽大量消耗、经费以及网页的海量存储问题,P2P采集又面临利他用途的可持续问题。
技术实现思路
本专利技术的目的在于,为克服目前采集设备中心化面临的带宽问题和网页的海量存储问题,同时将利他和利已用户相结合,解决P2P采集的可持续问题,从而提供。为实现上述目的,本专利技术提供,该方法用于多种网络环境下存在大量网页爬虫情况下的协作方法,所述的方法步骤如下步骤1,将一设定周期中某段时间同时在线的爬虫节点划分为一采集组,且各爬虫节点被划分的所有采集组的在线时间段相连接能实现一个周期的连续在线。步骤2,以所述采集组为单位进行网页采集,且各采集组间还通过消息交换的方法协作实现设定周期内对网页内容的不间断采集。步骤3,所述每个采集组内的若干爬虫节点协作存储该采集组所采集的网页。其中,所述采集组包含两个以上的采集节点。2、根据权利要求1所述的网页爬虫协作方法,其特征在于,所述每个采集组采用自动生成或配置的方式得到对应于该采集组的ID号。上述技术方案中,所述消息交换方法为各采集组形成一个路由网络,节点依据路由信息表将信令或消息发送到另一个采集组;其中,所述路由网络中的路由协议可采用IP 网络路由中的路由协议,或对等网络中的各种DHT协议。所述消息交换方法为中心控制消息交换方法,该方法的发送消息的节点向其所在网络的中心控制节点询问目的采集组对应的ID信息,在得到该信息后,以此信息为目的地发送消息。所述协作存储为被采集的网页在与该采集节点位于同一采集组内的各爬虫节点上分别保存被采集网页的副本,所述各副本存储节点能单独针对所存储的网页验证是否最新,并执行更新;或由所有副本存储节点中的一个代表节点对网页验证是否最新,并通知其他存储该网页的副本节点执行更新或将被采集的网页直接发送到副本存放节点。所述步骤1进一步包含如下步骤爬虫节点上线后,向管理服务器注册,之后每隔一定时间,管理服务器轮询各爬虫节点设备,查询其在线状态;管理服务器依据爬虫节点的在线信息将所有爬虫节点划分成若干采集组;管理服务器将各采集组的信息反馈到爬虫节点,各爬虫节点依据该信息自组成网;其中,所述爬虫节点的信息包含该节点所在网络和/或在线历史信息。与目前网页采集的方法相比,本专利技术具有下列优点(1)将中心化采集的带宽负担分摊到各采集节点,使其可节省大量带宽费用;(2)将网页的中心化存储划分为分布式存储,节省了中心节点的存储费用;(3)将利他和利已用户相结合,使网页采集系统具有可持续发展能力。本专利技术提出利用上述大量终端资源实现网页采集的一种方法,解决采集设备中心化面临的带宽问题和网页的海量存储问题,同时将利他和利已用户相结合,解决P2P 采集的时间可持续问题。附图说明图1是本专利技术的采集组内节点间在线时段间的关系示意图;图2是本专利技术的采集组间通信的环状路由示意图;图3是本专利技术的某个时段内采集组内节点维护网页的冗余关系图;图4是本专利技术实施例提供的利用本专利技术网页爬虫协作方法进行网页采集的系统示意图。具体实施例方式下面结合附图及具体实施例对本专利技术作进一步的描述。本专利技术提供的,所述的方法步骤如下首先,爬虫节点依据在线时间段形成若干采集组,所有的采集组能实现一个周期的连续在线;然后,采集组间通过消息交换的方法采集网页;最后,所有的采集组协作存储CN 102480524 A说明书3/4 页被采集的网页。所述的采集组采用散布于多个网络的数个爬虫节点,依据在线时间特征,形成在一定时间周期上呈现在线时间互补并全覆盖的节点集合。所述的消息交换的方法包含节点依据路由信息表将信令或消息发送到另一个采集组或中心控制消息交换的方式将消息从一个采集组传到另一个采集组。所述的被采集网页在一个采集组内要存储一个副本。为达到上述专利技术目的,本专利技术提供的网页爬虫协作方法包括网页爬虫节点形成采集组的方法、采集组间消息交换的方法和被采集网页的存储方法。其中,网页爬虫节点形成采集组的方法指散布于多个网络的数个爬虫节点,依据在线时间特征,形成在一定周期(比如星期(week))上在线时间呈现互补、全覆盖的节点集合。这样的节点集合构成一个采集组,并被分配一个采集组ID,该采集组ID可以是配置的, 也可以是自动生成的。其中,采集组间消息交换的方法指一个采集组中的一个节点将信令或消息发送到另一个采集组的方法。采集组间交换消息的方法有两种(1)各采集组形成一个路由网络, 其中路由网络中的路由协议可采用IP网络路由中的相关路由协议,如0SPF、RIP等,或对等网络中的各种DHT协议,如CHORD、KAD、CAN等。节点依据路由信息表将信令或消息发送到另一个采集组,这有点类似定向组播的方法。(2)中心控制消息交换方法,指要发送消息的节点向中心控制节点询问目的采集组ID对应的信息(比如IP地址等),在得到该信息后, 以此信息为目的地发送消息。其中,被采集网页的存储方法指在一个采集组内各采集点间的存储方法。在形成采集组时,针对任意一个时间段,都要有两个或以上的节点保持存活状态,被采集的网页在这些节点上都要保持一个副本,各节点可单独针对所存储的网页验证是否最新,并执行更新;或由一个代表节点对网页验证是否最新,并通知其他存储该网页的节点执行更新或将网页直接发送到这些节点。实施例1参考图4网页爬虫的协作采集系统简图,本实施例提供的网页爬虫协作方法包括如下步骤1)计算设备上线后,向管理服务器注册;之后每隔一定时间(比如30秒),管理服务器轮询各计算设备,查询在线状态;2)管理服务器依据计算设备的信息(如所在网络、在线历史)划分成若干采集组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
...

【专利技术属性】
技术研发人员:王劲林王玲芳邓峰齐向东
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术