爬取任务的分配方法及装置制造方法及图纸

技术编号:24094339 阅读:30 留言:0更新日期:2020-05-09 09:33
本发明专利技术公开了一种爬取任务的分配方法及装置,涉及爬虫技术领域,提高了爬虫服务器对爬取任务进行分配调度的效率。本发明专利技术的方法包括:接收爬虫设备发送的任务分配请求,其中,所述任务分配请求中包含所述爬虫设备对应的设备标识,所述设备标识用于唯一标识所述爬虫设备;根据所述设备标识,确定所述爬虫设备对应的爬取能力;获取与所述爬取能力相匹配的待处理爬取任务,并将所述待处理爬取任务发送至所述爬虫设备。本发明专利技术适用于爬虫服务器对爬取任务进行分配调度的过程中。

Allocation method and device of crawling task

【技术实现步骤摘要】
爬取任务的分配方法及装置
本专利技术涉及爬虫
,特别是涉及一种爬取任务的分配方法及装置。
技术介绍
随着互联网技术的日益发展,大数据时代已经来临。在大数据时代下,数据的价值不言而喻,例如,搜索引擎、人工智能、舆情系统等均获取大量数据作为基础,从而使得能够在互联网中爬取数据的网络爬虫扮演的角色越来越重要。由于,单个爬虫设备的爬取能力十分有限,因此,当需要处理的爬取任务的数量较多时,需要爬虫服务器对爬取任务进行分配调度,即爬虫服务器将获取得到的多个爬取任务分配给其对应的多个爬虫设备进行处理。目前,爬虫服务器在对爬取任务进行分配调度时,通常是按照时间顺序将获取得到的多个爬取任务存放到任务队列中,当接收到某个爬虫设备发送的任务分配请求时,将任务队列中的第一个爬取任务分配给该爬虫设备。专利技术人在实现本专利技术的过程中,发现现有技术中存在以下技术问题,由于,不同的爬虫设备对应的设备性能并不相同,从而使得不同爬虫设备具备的爬取能力也不相同,因此,爬虫服务器将其对应的所有爬虫设备看作具备相同的爬取能力,在接收到某个爬虫设备发送的任务分配请求后,未对该爬虫设备的爬取能力进行判别,便将爬取任务分配该爬虫设备,当该爬虫设备不具备处理该爬取任务的爬取能力时,该爬虫设备需要将该爬取任务返还给爬虫服务器,由爬虫服务器将该爬取任务分配给其他爬虫设备进行处理,从而存在爬虫服务器将爬取任务分配给爬虫设备后,该爬取任务不能在第一时间被处理,需要再次分配的可能性,进而导致爬虫服务器对爬取任务进行分配调度的效率较低。
技术实现思路
有鉴于此,本专利技术提供的爬取任务的分配方法及装置,主要目的在于提高爬虫服务器对爬取任务进行分配调度的效率。为了达到上述目的,本专利技术主要提供如下技术方案:第一方面,本专利技术提供了一种爬取任务的分配方法,该方法包括:接收爬虫设备发送的任务分配请求,其中,所述任务分配请求中包含所述爬虫设备对应的设备标识,所述设备标识用于唯一标识所述爬虫设备;根据所述设备标识,确定所述爬虫设备对应的爬取能力;获取与所述爬取能力相匹配的待处理爬取任务,并将所述待处理爬取任务发送至所述爬虫设备。可选的,在所述接收爬虫设备发送的任务分配请求之前,所述方法还包括:获取所述爬虫设备对应的设备标识和爬取能力,所述爬取能力用于表征所述爬虫设备具备的处理爬取任务的能力;将所述设备标识和所述爬取能力之间的映射关系进行缓存;所述根据所述设备标识,确定所述爬虫设备对应的爬取能力,包括:根据所述设备标识和所述映射关系,确定所述爬虫设备对应的爬取能力。可选的,所述获取与所述爬取能力相匹配的待处理爬取任务,包括:获取多个第一爬取任务,所述第一爬取任务是指任务状态为未处理的爬取任务;根据每个所述第一爬取任务对应的处理条件,在多个所述第一爬取任务中确定所述爬取能力能够完成的目标爬取任务,所述处理条件包括:所述第一爬取任务对应的待爬取应用程序、所述第一爬取任务对应的待爬取数据量和所述第一爬取任务对应的待爬取数据类型中的至少一项;将所述目标爬取任务确定为所述待处理爬取任务。可选的,所述获取与所述爬取能力相匹配的待处理爬取任务,包括:获取多个第二爬取任务,所述第二爬取任务是指所述爬取能力能够完成的爬取任务;根据每个所述第二爬取任务对应的任务状态,将多个所述第二爬取任务中任务状态为未处理的第二爬取任务确定为所述待处理爬取任务,所述任务状态为未处理或已处理。可选的,在所述将所述待处理爬取任务发送至所述爬虫设备之后,所述方法还包括:根据所述设备标识对所述待处理爬取任务的任务状态进行更新。第二方面,本专利技术还提供一种爬取任务的分配装置,该装置包括:接收单元,用于接收爬虫设备发送的任务分配请求,其中,所述任务分配请求中包含所述爬虫设备对应的设备标识,所述设备标识用于唯一标识所述爬虫设备;确定单元,用于根据所述接收单元接收的所述设备标识,确定所述爬虫设备对应的爬取能力;第一获取单元,用于获取与所述确定单元确定的所述爬取能力相匹配的待处理爬取任务;发送单元,用于将所述第一获取单元获取的所述待处理爬取任务发送至所述爬虫设备。可选的,所述装置还包括:第二获取单元,用于在所述接收单元接收爬虫设备发送的任务分配请求之前,获取所述爬虫设备对应的设备标识和爬取能力,所述爬取能力用于表征所述爬虫设备具备的处理爬取任务的能力;缓存单元,用于将所述第二获取单元获取的所述设备标识和所述爬取能力之间的映射关系进行缓存;所述确定单元,具体用于根据所述设备标识和所述映射关系,确定所述爬虫设备对应的爬取能力。可选的,所述第一获取单元包括:第一获取模块,用于获取多个第一爬取任务,所述第一爬取任务是指任务状态为未处理的爬取任务;第一确定模块,用于根据每个所述第一爬取任务对应的处理条件,在多个所述第一爬取任务中确定所述爬取能力能够完成的目标爬取任务,所述处理条件包括:所述第一爬取任务对应的待爬取应用程序、所述第一爬取任务对应的待爬取数据量和所述第一爬取任务对应的待爬取数据类型中的至少一项;第二确定模块,用于将所述第一确定模块确定的所述目标爬取任务确定为所述待处理爬取任务。可选的,所述第一获取单元还包括:第二获取模块,用于获取多个第二爬取任务,所述第二爬取任务是指所述爬取能力能够完成的爬取任务;第三确定模块,用于根据每个所述第二爬取任务对应的任务状态,将多个所述第二爬取任务中任务状态为未处理的第二爬取任务确定为所述待处理爬取任务,所述任务状态为未处理或已处理。可选的,所述装置还包括:更新单元,用于在所述发送单元将所述待处理爬取任务发送至所述爬虫设备之后,根据所述设备标识对所述待处理爬取任务的任务状态进行更新。为了实现上述目的,根据本专利技术的第三方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的爬取任务的分配方法。为了实现上述目的,根据本专利技术的第四方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的爬取任务的分配方法。借由上述技术方案,本专利技术提供的技术方案至少具有下列优点:本专利技术提供的一种爬取任务的分配方法及装置,与现有技术中,爬虫服务器按照时间顺序将获取得到的多个爬取任务存放到任务队列中,在接收到某个爬虫设备发送的任务分配请求后,将任务队列中的第一个爬取任务分配给该爬虫设备相比,本专利技术能够在爬虫服务器接收到某个爬虫设备发送的、携带有该爬虫设备对应的设备标识的任务分配请求后,根据该设备标识确定该爬虫设备对应的爬取能力,并获取与该爬取能力相匹配的待处理爬取任务,以及将该爬取任务发送至该爬虫设备进行处理。由于,爬虫服务器在接收到爬虫设备发送的任务分配请求后,是根据该爬虫设备对应的设备标识确定该爬虫设备对应的爬取能力,并将与该爬取能力相匹配本文档来自技高网
...

【技术保护点】
1.一种爬取任务的分配方法,其特征在于,包括:/n接收爬虫设备发送的任务分配请求,其中,所述任务分配请求中包含所述爬虫设备对应的设备标识,所述设备标识用于唯一标识所述爬虫设备;/n根据所述设备标识,确定所述爬虫设备对应的爬取能力;/n获取与所述爬取能力相匹配的待处理爬取任务,并将所述待处理爬取任务发送至所述爬虫设备。/n

【技术特征摘要】
1.一种爬取任务的分配方法,其特征在于,包括:
接收爬虫设备发送的任务分配请求,其中,所述任务分配请求中包含所述爬虫设备对应的设备标识,所述设备标识用于唯一标识所述爬虫设备;
根据所述设备标识,确定所述爬虫设备对应的爬取能力;
获取与所述爬取能力相匹配的待处理爬取任务,并将所述待处理爬取任务发送至所述爬虫设备。


2.根据权利要求1所述的方法,其特征在于,在所述接收爬虫设备发送的任务分配请求之前,所述方法还包括:
获取所述爬虫设备对应的设备标识和爬取能力,所述爬取能力用于表征所述爬虫设备具备的处理爬取任务的能力;
将所述设备标识和所述爬取能力之间的映射关系进行缓存;
所述根据所述设备标识,确定所述爬虫设备对应的爬取能力,包括:
根据所述设备标识和所述映射关系,确定所述爬虫设备对应的爬取能力。


3.根据权利要求1所述的方法,其特征在于,所述获取与所述爬取能力相匹配的待处理爬取任务,包括:
获取多个第一爬取任务,所述第一爬取任务是指任务状态为未处理的爬取任务;
根据每个所述第一爬取任务对应的处理条件,在多个所述第一爬取任务中确定所述爬取能力能够完成的目标爬取任务,所述处理条件包括:所述第一爬取任务对应的待爬取应用程序、所述第一爬取任务对应的待爬取数据量和所述第一爬取任务对应的待爬取数据类型中的至少一项;
将所述目标爬取任务确定为所述待处理爬取任务。


4.根据权利要求1所述的方法,其特征在于,所述获取与所述爬取能力相匹配的待处理爬取任务,包括:
获取多个第二爬取任务,所述第二爬取任务是指所述爬取能力能够完成的爬取任务;
根据每个所述第二爬取任务对应的任务状态,将多个所述第二爬取任务中任务状态为未处理的第二爬取任务确定为所述待处理爬取任务,所述任务状态为未处理或已处理。


5.根据权利要求1-4中任一项所述的方法,其特征在于,在所述将所述待处理爬取任务发送至所述爬虫设备之后,所述方法还包括:
根据所述设备标识对所述待处理爬取任务的任务状态进行...

【专利技术属性】
技术研发人员:李强
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1