用于网络资源处理的调度方法、设备、系统及子调度器技术方案

技术编号:13608505 阅读:155 留言:0更新日期:2016-08-29 01:23
本发明专利技术提供一种用于网络资源处理的调度方法、设备、系统及子调度器,方法包括:第一子调度器从至少一个网络爬虫设备获取网络资源的地址信息;当第一子调度器的网络资源的地址信息的数量超过设定的调度阈值时,将超过调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;与第一子调度器不同的第二子调度器接收总调度器分发的总调度任务;第二子调度器根据总调度任务和未超过调度阈值的网络资源的地址信息生成子调度任务;第二子调度器发送子调度任务给对应的网络爬虫设备。本发明专利技术实现了仅在网络资源处理量超负荷时,请求总调度器重新调度,降低了总调度器的负载。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种用于网络资源处理的调度方法、设备、系统及子调度器
技术介绍
搜索引擎作为网络信息搜寻的工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。1994年,爬虫程序被应用到索引程序中,Yahoo、Google等相继出现。网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,这些页面用于建立索引从而为搜索引擎提供支持。但至今,功能再强大的搜索引擎都仍然存在信息丢失、更新率低、精准率低等问题。用户需要更快、更准、更方便、更有效的查询服务成为搜索引擎技术发展研究追求的目标。而面对越来越庞大的网络资源,提高爬虫程序的速度已成为当前搜索领域的一个焦点问题,但现有的爬虫程序显然不能满足高速爬取的需求。
技术实现思路
本专利技术的目的在于,提供一种用于网络资源处理的调度方法、设备、系统及子调度器,以实现仅在网络资源处理量超负荷时,请求总调度器重新分配调度任务,降低总调度器的负载,使得网络资源更快速进入搜索引擎。根据本专利技术的一方面,提供一种用于网络资源处理的调度方法,包括:第一子调度器从至少一个网络爬虫设备获取网络资源的地址信息;当所述第一子调度器的网络资源的地址信息的数量超过设定的调度阈值时,所述第一子调度器将超过所述调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;与第一子调度器不同的第二子调度器接收所述总调度器分发的所述总调度任务;所述第二子调度器根据总调度任务和未超过所述调度阈值的网络资源的地址信息生成子调度任务;所述第二子调度器发送所述子调度任务给对应的网络爬虫设备。优选地,所述总调度器根据接收的超出部分的网络资源的地址信息
生成至少一个总调度任务的处理包括:所述总调度器获取其他子调度器当前处理网络资源的地址信息的数量和对应的调度阈值;根据其他子调度器的每一个的调度阈值和当前处理网络资源的地址信息的数量的差值,所述总调度器生成至少一个总调度任务,所述至少一个总调度任务用于指定对应的第二子调度器处理所述超出部分的网络资源的地址信息。优选地,所述方法还包括:所述第一子调度器发送所述网络资源的地址信息给子去重器,以使所述子去重器判断所述网络资源的地址信息与所述子去重器本地存储的网络资源的地址信息是否一致,如果一致,则不再对判断一致的网络资源的地址信息进行后续的处理。优选地,所述方法还包括:如果不一致,则所述子去重器将判断不一致的网络资源的地址信息发送给总去重器,以使所述总去重器判断所述网络资源的地址信息与所述总去重器本地存储的网络资源的地址信息是否一致;如果不一致,则所述第一子调度器接收所述总去重器发送的判断不一致的网络资源的地址信息。根据本专利技术的另一方面,提供一种用于网络资源处理的调度设备,包括:地址信息获取模块,用于第一子调度器从至少一个网络爬虫设备获取网络资源的地址信息;地址信息发送模块,用于当所述第一子调度器的网络资源的地址信息的数量超过设定的调度阈值时,所述第一子调度器将超过所述调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;调度任务接收模块,用于与第一子调度器不同的第二子调度器接收所述总调度器分发的所述总调度任务;调度任务生成模块,用于所述第二子调度器根据总调度任务和未超过所述调度阈值的网络资源的地址信息生成子调度任务;调度任务发送模块,用于所述第二子调度器发送所述子调度任务给对应的网络爬虫设备。优选地,所述地址信息发送模块具体用于所述总调度器获取其他子调度器当前处理网络资源的地址信息的数量和对应的调度阈值;根据其他子调度器的每一个的调度阈值和当前处理网络资源的地址信息的数量的差值,生成至少一个总调度任务,所述至少一个总调度任务用于指定对应的第二子调度器处理所述超出部分的网络资源的地址信息。优选地,所述地址信息发送模块还用于所述第一子调度器发送所述网络资源的地址信息给子去重器,以使所述子去重器判断所述网络资源的地址信息与所述子去重器本地存储的网络资源的地址信息是否一致,如果一致,则不再对判断一致的网络资源的地址信息进行后续的处理。优选地,所述地址信息发送模块还用于如果不一致,则所述子去重器将判断不一致的网络资源的地址信息发送给总去重器,以使所述总去重器判断所述网络资源的地址信息与所述总去重器本地存储的网络资源的地址信息是否一致;所述调度设备还包括:地址信息接收模块,用于如果不一致,则所述第一子调度器接收所述总去重器发送的判断不一致的网络资源的地址信息。根据本专利技术的另一方面,提供一种子调度器,包括:信息获取模块,用于从至少一个网络爬虫设备获取网络资源的地址信息;信息发送模块,用于当本地的网络资源的地址信息的数量超过设定的调度阈值时,将超过所述调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;任务接收模块,用于当本地的网络资源的地址信息的数量未超过设定的调度阈值时,接收所述总调度器分发的所述总调度任务;任务生成模块,用于根据所述总调度任务对应的网络资源的地址信息和未超过设定的调度阈值的网络资源的地址信息生成子调度任务;任务发送模块,用于发送所述子调度任务给对应的网络爬虫设备。根据本专利技术的另一方面,提供一种用于网络资源处理的调度系统,包括:总调度器和分别与所述总调度器通信连接的至少一个如前述实施例所述的子调度器,所述总调度器接收超过设定调度阈值的超出部分的网络资源的地址信息,并根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务,分别发送给对应的子调度器。根据本专利技术实施例提供的用于网络资源处理的调度方法、设备、系统及子调度器,通过子调度器在网络资源的地址信息的数量超过设定调度阈值时,发送超过调度阈值的超出部分的网络资源的地址信息给总调度器,使其重新分配调度任务,进一步其他未超过调度阈值的子调度器根据总调度器分发的总调度任务和未超过调度阈值的网络资源的地址信息生成子调度任务,并发送给对应的网络爬虫设备。实现了仅在网络资
源处理量超负荷时,请求总调度器重新分配调度任务,从而降低了总调度器的负载,使得网络资源更加快速地进入搜索引擎。附图说明图1是示出根据本专利技术实施例一的用于网络资源处理的调度方法的流程图;图2是示出根据本专利技术实施例二的用于网络资源处理的调度设备的逻辑框图;图3是示出根据本专利技术实施例三的子调度器的逻辑框图;图4是示出根据本专利技术实施例四的用于网络资源处理的调度系统的结构示意图。具体实施方式本专利技术的基本构思是,提供一种基于网络资源处理的两重调度的技术方案。具体来说,在网络资源的地址信息的数量超过设定调度阈值时,发送超过调度阈值的超出部分的网络资源的地址信息给总调度器,使其重新分配调度任务,进一步其他未超过调度阈值的子调度器根据总调度器分发的总调度任务和未超过调度阈值的超出部分的网络资源的地址信息生成子调度任务,并发送给对应的网络爬虫设备。实现了仅在网络资源处理量超负荷时,请求总调度器重新分配调度任务,从而降低了总调度器的负载,本文档来自技高网
...

【技术保护点】
一种用于网络资源处理的调度方法,其特征在于,所述方法包括:第一子调度器从至少一个网络爬虫设备获取网络资源的地址信息;当所述第一子调度器的网络资源的地址信息的数量超过设定的调度阈值时,所述第一子调度器将超过所述调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;与第一子调度器不同的第二子调度器接收所述总调度器分发的所述总调度任务;所述第二子调度器根据总调度任务和未超过所述调度阈值的网络资源的地址信息生成子调度任务;所述第二子调度器发送所述子调度任务给对应的网络爬虫设备。

【技术特征摘要】
1.一种用于网络资源处理的调度方法,其特征在于,所述方法包括:第一子调度器从至少一个网络爬虫设备获取网络资源的地址信息;当所述第一子调度器的网络资源的地址信息的数量超过设定的调度阈值时,所述第一子调度器将超过所述调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;与第一子调度器不同的第二子调度器接收所述总调度器分发的所述总调度任务;所述第二子调度器根据总调度任务和未超过所述调度阈值的网络资源的地址信息生成子调度任务;所述第二子调度器发送所述子调度任务给对应的网络爬虫设备。2.根据权利要求1所述的方法,其特征在于,所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务的处理包括:所述总调度器获取其他子调度器当前处理网络资源的地址信息的数量和对应的调度阈值;根据其他子调度器的每一个的调度阈值和当前处理网络资源的地址信息的数量的差值,生成至少一个总调度任务,所述至少一个总调度任务用于指定对应的第二子调度器处理所述超出部分的网络资源的地址信息。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述第一子调度器发送所述网络资源的地址信息给子去重器,以使所述子去重器判断所述网络资源的地址信息与所述子去重器本地存储的网络资源的地址信息是否一致,如果一致,则不再对判断一致的网络资源的地址信息进行后续的处理。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:如果不一致,则所述子去重器将判断不一致的网络资源的地址信息发送给总去重器,以使所述总去重器判断所述网络资源的地址信息与所述总去重器本地存储的网络资源的地址信息是否一致;如果不一致,则所述第一子调度器接收所述总去重器发送的判断不一致的网络资源的地址信息。5.一种用于网络资源处理的调度设备,其特征在于,所述调度设备包括:地址信息获取模块,用于第一子调度器从至少一个网络爬虫设备获取网络资源的地址信息;地址信息发送模块,用于当所述第一子调度器的网络资源的地址信息的数量超过设定的调度阈值时,所述第一子调度器将超过所述调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;调度任务接收模块,用于与第一子调度器不同的第二子调度器接收所述总调度器分发的所述总调度任务;调度任务生成模块,用于所述第二子调度器根据...

【专利技术属性】
技术研发人员:高强
申请(专利权)人:乐视网信息技术北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1