分布式爬虫任务分配方法及系统技术方案

技术编号:17248794 阅读:49 留言:0更新日期:2018-02-11 07:02
本发明专利技术公开了一种分布式爬虫任务分配方法,所述方法包括如下步骤:分布式设备接收或发起分配消息,所述分配消息用于从分布式爬虫系统中分配出任务管理器;分布式设备将N个数据包依次发送给分布式设备的其他M个设备;分布式设备统计M个设备返回的N个数据包的M个时延和,求该M个时延和的平均值;分布式设备接收其他M个设备发送的M个分配消息得到M个时延和平均值,分布式设备从M+1个时延和平均值中选择时延和最小的设备作为任务管理器,任务管理器获取该爬虫任务,任务管理器获取与该任务管理器连接的设备的距离以及爬虫任务数量;任务管理器依据该距离以及爬虫任务数量分配爬虫任务。本发明专利技术提供的技术方案具有效率高的优点。

【技术实现步骤摘要】
分布式爬虫任务分配方法及系统
本专利技术涉及数据处理领域,尤其涉及一种分布式爬虫任务分配方法及系统。
技术介绍
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫实际是一种网络信息抓取的应用程序,现有的网络爬虫抓取数据量大,任务的分配一般为均分任务,导致数据搜索效率低。
技术实现思路
本申请提供一种分布式爬虫任务分配方法。其解决现有技术的技术方案效率低的缺点。一方面,提供一种分布式爬虫任务分配方法,所述方法包括如下步骤:分布式设备接收或发起分配消息,所述分配消息用于从分布式爬虫系统中分配出任务管理器;分布式设备将N个数据包依次发送给分布式设备的其他M个设备;分布式设备统计M个设备返回的N个数据包的M个时延和,求该M个时延和的平均值;分布式设备接收其他M个设备发送的M个分配消息得到M个时延和平均值,该分配消息包含本机的时延和平均值;分布式设备从M+1个时延和平均值中选择时延和最小的设备作为任务管理器,任务管理器获取该爬虫任务,任务本文档来自技高网...
分布式爬虫任务分配方法及系统

【技术保护点】
一种分布式爬虫任务分配方法,其特征在于,所述方法包括如下步骤:分布式设备接收或发起分配消息,所述分配消息用于从分布式爬虫系统中分配出任务管理器;分布式设备将N个数据包依次发送给分布式设备的其他M个设备;分布式设备统计M个设备返回的N个数据包的M个时延和,求该M个时延和的平均值;分布式设备接收其他M个设备发送的M个分配消息得到M个时延和平均值,该分配消息包含本机的时延和平均值;分布式设备从M+1个时延和平均值中选择时延和最小的设备作为任务管理器,任务管理器获取该爬虫任务,任务管理器获取与该任务管理器连接的设备的距离以及爬虫任务数量;任务管理器依据该距离以及爬虫任务数量分配爬虫任务。

【技术特征摘要】
1.一种分布式爬虫任务分配方法,其特征在于,所述方法包括如下步骤:分布式设备接收或发起分配消息,所述分配消息用于从分布式爬虫系统中分配出任务管理器;分布式设备将N个数据包依次发送给分布式设备的其他M个设备;分布式设备统计M个设备返回的N个数据包的M个时延和,求该M个时延和的平均值;分布式设备接收其他M个设备发送的M个分配消息得到M个时延和平均值,该分配消息包含本机的时延和平均值;分布式设备从M+1个时延和平均值中选择时延和最小的设备作为任务管理器,任务管理器获取该爬虫任务,任务管理器获取与该任务管理器连接的设备的距离以及爬虫任务数量;任务管理器依据该距离以及爬虫任务数量分配爬虫任务。2.根据权利要求1所述的方法,其特征在于,所述任务管理器依据该距离以及爬虫任务数量分配爬虫任务,具体包括:将与任务管理器直接连接的设备确定为第X个分布式设备组,为第X个分布式设备组采用第一负载均衡的算法分配爬虫任务,将与任务管理服务器间接连接的设备确定为第二设备组,为第二设备组采用第二负载均衡的算法分配爬虫任务,第二负载均衡的算法的任务阈值小于第一负载均衡算法的任务阈值。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:检测其他N个分布式设备与任务管理器之间的心跳消息,如设定时间内未接收到第X个分布式设备的第一心跳消息,将第X个分布式设备未完成的爬虫任务确定为待分配的爬虫任务。4.一种分布式爬虫任务分配系统,其特征在于,所述系统包括:任务管理器以及N个分布式设备,所述任务管理器与设备连接;任务管理器,用于接收或发起分配消息,所述分配消息用于从分布式爬虫系统中分配出任务管理器;将N个数据包依次发送给分布式设备的其他M个设备;统计M个设备返回的N个数据包的M个时延和,求该M个时延和的平均值;接收其他M个设备发送的M个分配消息得到M个时延和平均值,该分配消息包含本机的时延和平均值;从M+1个时延和平均值中选择时延和最小的设备作为任务管理器获取该爬虫任务,获取与该任务管理器连接的设备的距离以及爬虫任务数量;依据该距离以及爬虫任务数量为其他N个分布式设备分配爬虫任务;所述其他N个分布式设备,用于执行分配的爬虫任务。5.根据权利要求4所述的系统,其...

【专利技术属性】
技术研发人员:马岩
申请(专利权)人:麦格创科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1