The invention provides a scheduling method and device for a distributed network crawler task. The method includes: obtaining the processing capability of each crawler node in the distributed network, and assigning the corresponding pending task for each crawler node according to the predetermined priority order and the processing ability of each crawler node to make the crawler node. Deal with the assigned tasks to be treated. The scheduling method and device of the distributed network crawler task provided by the invention, according to the predefined priority order and assigning the corresponding number of pending tasks to the crawler node according to the processing ability of each crawler node, realizes the effective management of the crawler node, and ensures that each crawler node is capable of handling its own ability. The efficiency of the allocated tasks is improved, and the practicability of the scheduling method is improved.
【技术实现步骤摘要】
分布式网络爬虫任务的调度方法及装置
本专利技术涉及爬虫节点
,尤其涉及一种分布式网络爬虫任务的调度方法及装置。
技术介绍
大数据时代,数据的价值不言而喻,搜索引擎、舆情系统、比价系统等都是以获取大量数据为基础的,故爬虫节点成为不可或缺的重要组成部分。随着互联网的发展,信息和知识正在呈爆炸式增长,这给爬虫节点带来了更高的挑战。单节点爬虫结构已无法满足需求,分布式爬虫节点应运而生。分布式爬虫节点由多个爬虫节点组成,按照通信方式不同可分为主从模式、自治模式与混合模式。其中主从模式方式,是指由一台主机作为调度端负责所有运行的爬虫节点进行管理,爬虫节点只需要从调度端那里接收抓取任务,并把新生成抓取任务提交给调度端再分配就可以了,在这个过程中不必与其他爬虫通信,这种方式实现简单明晰且有利于管理。在现有技术中,通过共享任务目录实现分布式爬虫任务的协同任务调度,然而,上述任务调度方式缺乏对爬虫节点的统一管理,且缺少基于不同任务对资源的需求而对爬虫节点进行分别管理,从而未实现对网络爬点的有效管理,进而降低了网络爬点的任务处理效率。
技术实现思路
本专利技术提供一种分布式网络爬虫任务的调度方法及装置,可以有效地克服现有技术中存在的未实现对网络爬点的有效管理,进而降低了网络爬点的任务处理效率的问题。本专利技术的一方面提供了一种分布式网络爬虫任务的调度方法,包括:获取分布式网络中每个爬虫节点的处理能力;按照预设的所述优先级顺序并根据每个爬虫节点的处理能力为每个爬虫节点分配相应的待处理任务,以使得所述爬虫节点对所分配的待处理任务进行处理。本专利技术的另一方面提供了一种分布式网络爬 ...
【技术保护点】
1.一种分布式网络爬虫任务的调度方法,其特征在于,包括:获取分布式网络中每个爬虫节点的处理能力;按照预设的优先级顺序并根据每个爬虫节点的处理能力为每个爬虫节点分配相应的待处理任务,以使得所述爬虫节点对所分配的待处理任务进行处理。
【技术特征摘要】
1.一种分布式网络爬虫任务的调度方法,其特征在于,包括:获取分布式网络中每个爬虫节点的处理能力;按照预设的优先级顺序并根据每个爬虫节点的处理能力为每个爬虫节点分配相应的待处理任务,以使得所述爬虫节点对所分配的待处理任务进行处理。2.根据权利要求1所述的方法,其特征在于,还包括:根据每个爬虫节点的处理能力确定所述分布式网络的最大并发访问量;获取所述待处理任务,并根据所获取的待处理任务确定待处理任务量;若所获取的待处理任务量大于或者等于所述最大并发访问量,则停止获取所述待处理任务;或者,若所获取的待处理任务量小于所述最大并发访问量,则继续获取所述待处理任务。3.根据权利要求1所述的方法,其特征在于,所述获取分布式网络中每个爬虫节点的处理能力,具体包括:按照预设的时间周期向每个爬虫节点发送心跳请求,以使得所述爬虫节点根据所述心跳请求发送所述爬虫节点的处理能力;接收所述爬虫节点发送的处理能力,其中,所述处理能力包括以下至少之一:下载能力、解析能力、负载信息、内存信息、未分配任务时间、处理正确率和处理时间。4.根据权利要求3所述的方法,其特征在于,按照预设的优先级顺序并根据每个爬虫节点的处理能力为每个爬虫节点分配相应的待处理任务,以使得所述爬虫节点对所分配的待处理任务进行处理,具体包括:若所述爬虫节点的未分配任务时间大于预设的时间阈值,则优先为该爬虫节点按照所述优先级由高到低的顺序分配所述待处理任务;或者,若所述爬虫节点的负载信息小于预设的负载阈值,则继续按照所述优先级由高到低的顺序为所述爬虫节点分配所述待处理任务;或者,若所述爬虫节点的负载信息大于或等于预设的负载阈值,则向其他爬虫节点按照所述优先级由高到低的顺序分配所述待处理任务;其中,所分配的待处理任务所需要的处理能力小于所述爬虫节点的处理能力。5.根据权利要求3所述的方法,其特征在于,在按照预设的时间周期向每个爬虫节点发送心跳请求之后,所述方法还包括:在预设时间段内,若未收到所述爬虫节点发送的处理能力,则确定所述爬虫节点的未响应信息,其中,所述未响应信息包括:未响应时间信息和未响应次数信息;若所述未响应次数信息大于预设的次数阈值信息,则按照预设的调整策略调整所述爬虫节点的处理能力。6.根据权利要求3所述的方法,其特征在于,所述方法还包括:在预设的时间段内,根据所述处理正确率和处理时间对所述爬虫节点进行管理;若所述爬虫节点对第一数量的待处理任务进行处理的处理时间大于预设的时间阈值,则将该爬虫节点删除,其中,所述第一数量大于预设的第一数量阈值;和/或,若所述爬虫节点对第二数量的待处理任务进行处理的处理正确率小于预设的正确率阈值,则将该爬虫节点删除,其中,所述第二数量大于预设的第二数量...
【专利技术属性】
技术研发人员:张学颖,张丹,于晓明,曹六一,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。