【技术实现步骤摘要】
一种负载均衡分布式的爬虫方法、爬虫系统
本专利技术涉及网络搜索领域,尤其涉及一种负载均衡分布式的爬虫方法、爬虫系统。
技术介绍
目前的分布式爬虫中各个节点都只是负责单一的任务。当某一个单一任务需要等待另一个任务完成的时候,负责处理这个单一任务的节点就可能出现空闲情况,造成大量的资源浪费,搜索速度降低。因此,必须想出一种方法解决这种资源浪费的瓶颈情况,让分布式集群机器都处于一个合理利用资源的环境,让各个机器节点都能各司其职。
技术实现思路
本专利技术的目的在于提出一种可及时对所述爬虫采集节点进行调配,避免出现部分爬虫采集节点处于空载状态,提高爬虫采集节点的整体利用率,减少资源浪费的负载均衡分布式的爬虫方法、爬虫系统。为达此目的,本专利技术采用以下技术方案:一种负载均衡分布式的爬虫方法,包括主服务器和多个与主服务器互通的爬虫服务器,每个所述爬虫服务器的下游设置多个爬虫采集节点,包括系统分布式爬虫负载均衡过程:步骤A:所述主服务器将一个爬虫任务分解成请求页面任务和分析页面任务,请求页面任务和分析页面任务之间循环交替进行;步骤B:所述主服务器把请求页面任务和分析页面任务分发给不同的所述爬虫服务器,所述爬虫服务器再把自身接收到的任务分派给各个所述爬虫采集节点并对各个所述爬虫采集节点的节点状态信息进行监控;步骤C:所述爬虫服务器收集并反馈各个所述爬虫采集节点的节点状态信息到所述主服务器;步骤D:所述主服务器接收并分析所述爬虫服务器反馈的节点状态信息;若分析到所述爬虫采集节点的节点状态信息为空载状态,则所述主服务器调度任务给该爬虫采集节点。优选地,所述步骤B中的爬虫服务器监 ...
【技术保护点】
一种负载均衡分布式的爬虫方法,包括主服务器和多个与主服务器互通的爬虫服务器,每个所述爬虫服务器的下游设置多个爬虫采集节点,其特征在于,包括系统分布式爬虫负载均衡过程:步骤A:所述主服务器将一个爬虫任务分解成请求页面任务和分析页面任务,请求页面任务和分析页面任务之间循环交替进行;步骤B:所述主服务器把请求页面任务和分析页面任务分发给不同的所述爬虫服务器,所述爬虫服务器再把自身接收到的任务分派给各个所述爬虫采集节点并对各个所述爬虫采集节点的节点状态信息进行监控;步骤C:所述爬虫服务器收集并反馈各个所述爬虫采集节点的节点状态信息到所述主服务器;步骤D:所述主服务器接收并分析所述爬虫服务器反馈的节点状态信息;若分析到所述爬虫采集节点的节点状态信息为空载状态,则所述主服务器调度任务给该爬虫采集节点。
【技术特征摘要】
1.一种负载均衡分布式的爬虫方法,包括主服务器和多个与主服务器互通的爬虫服务器,每个所述爬虫服务器的下游设置多个爬虫采集节点,其特征在于,包括系统分布式爬虫负载均衡过程:步骤A:所述主服务器将一个爬虫任务分解成请求页面任务和分析页面任务,请求页面任务和分析页面任务之间循环交替进行;步骤B:所述主服务器把请求页面任务和分析页面任务分发给不同的所述爬虫服务器,所述爬虫服务器再把自身接收到的任务分派给各个所述爬虫采集节点并对各个所述爬虫采集节点的节点状态信息进行监控;步骤C:所述爬虫服务器收集并反馈各个所述爬虫采集节点的节点状态信息到所述主服务器;步骤D:所述主服务器接收并分析所述爬虫服务器反馈的节点状态信息;若分析到所述爬虫采集节点的节点状态信息为空载状态,则所述主服务器调度任务给该爬虫采集节点。2.根据权利要求1所述的负载均衡分布式的爬虫方法,其特征在于,所述步骤B中的爬虫服务器监控方法包括:首先,各个所述爬虫采集节点执行被分派的任务,并发送自身的节点状态信息到对应的所述爬虫服务器;然后,所述爬虫服务器对接收到的所述节点状态信息进行整理,并将整理后的所述节点状态信息实时发送至所述主服务器。3.根据权利要求1所述的负载均衡分布式的爬虫方法,其特征在于,所述步骤D中所述主服务器分析调度方法包括:首先,所述主服务器对接收到的多个所述节点状态信息进行整理;然后,所述主服务器通过整理后的所述节点状态信息分析对应的爬虫采集节点是否处于空闲状态:若不是则分析下一个所述节点状态信息;若是则进一步分析所述爬虫采集节点原先负责的任务是请求页面任务还是分析页面任务:若所述爬虫采集节点原先负责请求页面任务,则分配分析页面任务给所述爬虫采集节点;若所述爬虫采集节点原先负责分析页面任务,则分配请求页面任务给所述爬虫采集节点。4.根据权利要求1所述的负载均衡分布式的爬虫方法,其特征在于,还包括控制爬虫采集节点数量过程:首先,所述主服务器对爬虫任务的分配情况进行检测;若检测到所有爬虫任务均被分配,则进一步分析各个爬虫采集节点的节点状态信息:若分析到存在若干个所述爬虫采集节点处于空闲状态或请求页面任务状态,则删除这些处于空闲状态或请求页面任务状态的爬虫采集节点;若检测有若干个所有爬虫任务未被分配,则进一步分析各个爬虫采集节点的节点状态信息,然后将未分配的爬虫任务分析调度至处于空闲状态的爬虫采集节点;若分析调度完后仍有若干个所有爬虫任务未被分配,则增加爬虫采集节点的数量直至所有爬虫任务均被分配为止。5.根据权利要求1所述的负载均衡分布式的爬虫方法,其特征在于...
【专利技术属性】
技术研发人员:曾伟英,霍智杰,徐国坤,
申请(专利权)人:广东科杰通信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。