网络爬虫任务的调度方法及装置制造方法及图纸

技术编号:24996274 阅读:13 留言:0更新日期:2020-07-24 17:58
本发明专利技术公开了一种网络爬虫任务的调度方法及装置。其中,该方法包括:获取待爬取目标数据的初始网络地址列表;依据上述待爬取目标数据的优先级信息,将上述初始网络地址列表对应加入上述目标消息队列中,创建得到爬虫任务,其中,多个目标消息队列中的每个上述目标消息队列的优先级不同;在检测到指示执行上述爬虫任务的情况下,依据上述目标消息队列的优先级和上述初始网络地址列表爬取网页,获取目标网络地址列表;依据上述目标网络地址列表的优先级,将上述目标网络地址列表对应放入待爬取网络地址队列中;依据上述待爬取网络地址队列的优先级和上述目标网络地址列表爬取网页,直至无法获取得到目标网络地址列表。本发明专利技术解决了现有技术中的网络爬虫均未结合爬虫的优先级进行任务调度,导致网络爬虫爬取数据的效率较低的技术问题。

【技术实现步骤摘要】
网络爬虫任务的调度方法及装置
本专利技术涉及网络爬虫
,具体而言,涉及一种网络爬虫任务的调度方法及装置。
技术介绍
网络爬虫的基本原理是向网站/网络发起请求,获取资源后分析并提取有用数据,不同类型的网络爬虫,其实现原理也是不同的,但这些实现原理中,会存在很多共性。例如,传统网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。现有的传统网络爬虫和聚焦网络爬虫,均通过将待爬取URL列表放入拥有先进先出基本功能的队列中,但是无法设定队列的优先级或者根据队列任务调度的优先级来实现优先级高则先消费,优先级低则后消费,这样就会导致消息过多的情况下,部分重要的消息消费很慢或发生阻塞,从而导致网络爬虫爬取数据的效率较低。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种网络爬虫任务的调度方法及装置,以至少解决现有技术中的网络爬虫均未结合爬虫的优先级进行任务调度,导致网络爬虫爬取数据的效率较低的技术问题。根据本专利技术实施例的一个方面,提供了一种网络爬虫任务的调度方法,包括:获取待爬取目标数据的初始网络地址列表;依据上述待爬取目标数据的优先级信息,将上述初始网络地址列表对应加入上述目标消息队列中,创建得到爬虫任务,其中,多个目标消息队列中的每个上述目标消息队列的优先级不同;在检测到指示执行上述爬虫任务的情况下,依据上述目标消息队列的优先级和上述初始网络地址列表爬取网页,获取目标网络地址列表;依据上述目标网络地址列表的优先级,将上述目标网络地址列表对应放入待爬取网络地址队列中;依据上述待爬取网络地址队列的优先级和上述目标网络地址列表爬取网页,直至无法获取得到目标网络地址列表。可选的,在获取待爬取目标数据的初始网络地址列表之前,上述方法还包括:获取爬取需求信息,其中,上述爬取需求信息包括:爬取目标定义信息和/爬取目标描述信息;确定与上述爬取需求信息对应的待爬取目标数据。可选的,在获取待爬取目标数据的初始网络地址列表之前,上述方法还包括:预先定义多个基于分布式流处理库的上述目标消息队列。可选的,在获取目标网络地址列表之后,上述方法还包括:确定上述目标网络地址列表中上述待爬取目标数据对应的相关网络地址;删除上述目标网络地址列表中除上述相关网络地址之外的其他网络地址。可选的,在根据上述目标消息队列的优先级和上述初始网络地址列表爬取网页之后,上述方法还包括:将已爬取的至少一个上述初始网络地址列表放入已爬取列表,其中,上述已爬取列表用于爬取去重处理和判断爬取进程。根据本专利技术实施例的另一方面,还提供了一种网络爬虫任务的调度装置,包括:第一获取模块,用于获取待爬取目标数据的初始网络地址列表;任务创建模块,用于依据上述待爬取目标数据的优先级信息,将上述初始网络地址列表对应加入上述目标消息队列中,创建得到爬虫任务,其中,多个目标消息队列中的每个上述目标消息队列的优先级不同;第一爬取模块,用于在检测到指示执行上述爬虫任务的情况下,依据上述目标消息队列的优先级和上述初始网络地址列表爬取网页,获取目标网络地址列表;调度模块,用于依据上述目标网络地址列表的优先级,将上述目标网络地址列表对应放入待爬取网络地址队列中;第二爬取模块,用于依据上述待爬取网络地址队列的优先级和上述目标网络地址列表爬取网页,直至无法获取得到目标网络地址列表。可选的,上述装置还包括:第二获取模块,用于获取爬取需求信息,其中,上述爬取需求信息包括:爬取目标定义信息和/爬取目标描述信息;确定模块,用于确定与上述爬取需求信息对应的待爬取目标数据。可选的,上述装置还包括:队列定义模块,用于预先定义多个基于分布式流处理库的上述目标消息队列。根据本专利技术实施例的另一方面,还提供了一种存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行任意一项上述的网络爬虫任务的调度方法。根据本专利技术实施例的另一方面,还提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行任意一项上述的网络爬虫任务的调度方法。在本专利技术实施例中,通过获取待爬取目标数据的初始网络地址列表;依据上述待爬取目标数据的优先级信息,将上述初始网络地址列表对应加入上述目标消息队列中,创建得到爬虫任务,其中,多个目标消息队列中的每个上述目标消息队列的优先级不同;在检测到指示执行上述爬虫任务的情况下,依据上述目标消息队列的优先级和上述初始网络地址列表爬取网页,获取目标网络地址列表;依据上述目标网络地址列表的优先级,将上述目标网络地址列表对应放入待爬取网络地址队列中;依据上述待爬取网络地址队列的优先级和上述目标网络地址列表爬取网页,直至无法获取得到目标网络地址列表,达到了结合爬虫的优先级调度网络爬虫任务的目的,从而实现了提高网络爬虫爬取数据的效率的技术效果,进而解决了现有技术中的网络爬虫均未结合爬虫的优先级进行任务调度,导致网络爬虫爬取数据的效率较低的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种网络爬虫任务的调度方法的流程图;图2是根据本专利技术实施例的一种可选的网络爬虫任务的调度方法的流程图;图3是根据本专利技术实施例的一种网络爬虫任务的调度装置的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或本文档来自技高网
...

【技术保护点】
1.一种网络爬虫任务的调度方法,其特征在于,包括:/n获取待爬取目标数据的初始网络地址列表;/n依据所述待爬取目标数据的优先级信息,将所述初始网络地址列表对应加入目标消息队列中,创建得到爬虫任务,其中,多个目标消息队列中的每个所述目标消息队列的优先级不同;/n在检测到指示执行所述爬虫任务的情况下,依据所述目标消息队列的优先级和所述初始网络地址列表爬取网页,获取目标网络地址列表;/n依据所述目标网络地址列表的优先级,将所述目标网络地址列表对应放入待爬取网络地址队列中;/n依据所述待爬取网络地址队列的优先级和所述目标网络地址列表爬取网页,直至无法获取得到目标网络地址列表。/n

【技术特征摘要】
1.一种网络爬虫任务的调度方法,其特征在于,包括:
获取待爬取目标数据的初始网络地址列表;
依据所述待爬取目标数据的优先级信息,将所述初始网络地址列表对应加入目标消息队列中,创建得到爬虫任务,其中,多个目标消息队列中的每个所述目标消息队列的优先级不同;
在检测到指示执行所述爬虫任务的情况下,依据所述目标消息队列的优先级和所述初始网络地址列表爬取网页,获取目标网络地址列表;
依据所述目标网络地址列表的优先级,将所述目标网络地址列表对应放入待爬取网络地址队列中;
依据所述待爬取网络地址队列的优先级和所述目标网络地址列表爬取网页,直至无法获取得到目标网络地址列表。


2.根据权利要求1所述的方法,其特征在于,在获取待爬取目标数据的初始网络地址列表之前,所述方法还包括:
获取爬取需求信息,其中,所述爬取需求信息包括:爬取目标定义信息和/爬取目标描述信息;
确定与所述爬取需求信息对应的待爬取目标数据。


3.根据权利要求1所述的方法,其特征在于,在获取待爬取目标数据的初始网络地址列表之前,所述方法还包括:
预先定义多个基于分布式流处理库的所述目标消息队列。


4.根据权利要求1所述的方法,其特征在于,在获取目标网络地址列表之后,所述方法还包括:
确定所述目标网络地址列表中所述待爬取目标数据对应的相关网络地址;
删除所述目标网络地址列表中除所述相关网络地址之外的其他网络地址。


5.根据权利要求1所述的方法,其特征在于,在根据所述目标消息队列的优先级和所述初始网络地址列表爬取网页之后,所述方法还包括:
将已爬取的至少一个所述初始网络地址列表放入已爬取列表,...

【专利技术属性】
技术研发人员:韩湘王志海喻波安鹏董爱华
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1