The invention discloses a distribution method of task manager a distributed crawler system, the method comprises the following steps: receiving or launch distributed equipment allocation message, the message is used to allocate the assigned task manager from the distributed crawler system; distributed equipment equipment parameters through other devices broadcast message broadcast to distributed crawler system the broadcast message sending and receiving equipment, equipment first distributed parameter optimal extraction from the broadcast message sending and receiving equipment distributed voting; other devices, the vote message includes a distributed device number of votes and the vote, the largest number of distributed devices identified as task manager; equipment such as distributed task management is the task of the local processing crawler assigned to other distributed equipment. The technical scheme provided by the invention has the advantages of high efficiency.
【技术实现步骤摘要】
分布式爬虫系统中任务管理器的分配方法及系统
本专利技术涉及数据处理领域,尤其涉及一种分布式爬虫系统中任务管理器的分配方法及系统。
技术介绍
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫实际是一种网络信息抓取的应用程序,现有的网络爬虫抓取数据量大,任务的分配的任务管理器为随机分配的,其可能影响任务分配的效率,影响爬虫的效率。
技术实现思路
本申请提供一种分布式爬虫系统中任务管理器的分配方法。其解决现有技术的技术方案效率低的缺点。一方面,提供一种分布式爬虫任务分配方法,所述方法包括如下步骤:分布式设备接收或发起分配消息,所述分配消息用于从分布式爬虫系统中分配出任务管理器;分布式设备将N个数据包依次发送给分布式设备的其他M个设备;分布式设备统计M个设备返回的N个数据包的M个时延和,求该M个时延和的平均值;分布式设备接收其他M个设备发送的M个分配消息得到M个时延和平均值,该分配消息包含本机的时延和平均值;分布式设备从M+1个时延和平均值中选择时延和最小的设备作为任务管理器。可选的,所述方法还包括:将时延和次少的分布式设备确定为备用任务管理器,降低备用任务管理器的任务处理阈值。可选的,所述方法还包括:如任务管理器故障,启动备用任务管理器作为分布式系统的任务管理器。第二方面,提供一种分布式爬虫任务分配系统,所述系统包括:多个分布式设备,所述多个分布式设备包括第一分布式设备和其他N个分布式设备;第一分布式设备 ...
【技术保护点】
一种分布式爬虫系统中任务管理器的分配方法,其特征在于,所述方法包括如下步骤:分布式设备接收或发起分配消息,所述分配消息用于从分布式爬虫系统中分配出任务管理器;分布式设备将N个数据包依次发送给分布式设备的其他M个设备;分布式设备统计M个设备返回的N个数据包的M个时延和,求该M个时延和的平均值;分布式设备接收其他M个设备发送的M个分配消息得到M个时延和平均值,该分配消息包含本机的时延和平均值;分布式设备从M+1个时延和平均值中选择时延和最小的设备作为任务管理器。
【技术特征摘要】
1.一种分布式爬虫系统中任务管理器的分配方法,其特征在于,所述方法包括如下步骤:分布式设备接收或发起分配消息,所述分配消息用于从分布式爬虫系统中分配出任务管理器;分布式设备将N个数据包依次发送给分布式设备的其他M个设备;分布式设备统计M个设备返回的N个数据包的M个时延和,求该M个时延和的平均值;分布式设备接收其他M个设备发送的M个分配消息得到M个时延和平均值,该分配消息包含本机的时延和平均值;分布式设备从M+1个时延和平均值中选择时延和最小的设备作为任务管理器。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将时延和次少的分布式设备确定为备用任务管理器,降低备用任务管理器的任务处理阈值。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:如任务管理器故障,启动备用任务管理器作为分布式系统的任务管理器。4.一种分布式爬虫任务分配系统,其特征在于,所述系统包括:多个分布式设备,所述多个分布式设备包括第一分布式设备和其他N个分布式设备;第一分布式设备,用于接收或发起分配消息,所述分配消息用于从分布式爬虫系统中分配出任务管理器;将N个数据包依次发送给分布式设备的其他M个设备;统计M个设备返回的N个数据包的M个时延和,求该M个时延和的平均值;接收其他M个设备发送的M个分配消息得到M个时延和平均值,该分配消息包含本机的时延和平均值;从M+1个时延和平均值中选择时延和最小的设备作为任务管理器;其他N个分布式设备,用于获取...
【专利技术属性】
技术研发人员:马岩,
申请(专利权)人:麦格创科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。