网络爬虫任务的调度方法及装置制造方法及图纸

技术编号：24996274 阅读：25 留言：0更新日期：2020-07-24 17:58

本发明专利技术公开了一种网络爬虫任务的调度方法及装置。其中，该方法包括：获取待爬取目标数据的初始网络地址列表；依据上述待爬取目标数据的优先级信息，将上述初始网络地址列表对应加入上述目标消息队列中，创建得到爬虫任务，其中，多个目标消息队列中的每个上述目标消息队列的优先级不同；在检测到指示执行上述爬虫任务的情况下，依据上述目标消息队列的优先级和上述初始网络地址列表爬取网页，获取目标网络地址列表；依据上述目标网络地址列表的优先级，将上述目标网络地址列表对应放入待爬取网络地址队列中；依据上述待爬取网络地址队列的优先级和上述目标网络地址列表爬取网页，直至无法获取得到目标网络地址列表。本发明专利技术解决了现有技术中的网络爬虫均未结合爬虫的优先级进行任务调度，导致网络爬虫爬取数据的效率较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
网络爬虫任务的调度方法及装置
本专利技术涉及网络爬虫
，具体而言，涉及一种网络爬虫任务的调度方法及装置。
技术介绍
网络爬虫的基本原理是向网站/网络发起请求，获取资源后分析并提取有用数据，不同类型的网络爬虫，其实现原理也是不同的，但这些实现原理中，会存在很多共性。例如，传统网络爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。现有的传统网络爬虫和聚焦网络爬虫，均通过将待爬取URL列表放入拥有先进先出基...

【技术保护点】
1.一种网络爬虫任务的调度方法，其特征在于，包括：/n获取待爬取目标数据的初始网络地址列表；/n依据所述待爬取目标数据的优先级信息，将所述初始网络地址列表对应加入目标消息队列中，创建得到爬虫任务，其中，多个目标消息队列中的每个所述目标消息队列的优先级不同；/n在检测到指示执行所述爬虫任务的情况下，依据所述目标消息队列的优先级和所述初始网络地址列表爬取网页，获取目标网络地址列表；/n依据所述目标网络地址列表的优先级，将所述目标网络地址列表对应放入待爬取网络地址队列中；/n依据所述待爬取网络地址队列的优先级和所述目标网络地址列表爬取网页，直至无法获取得到目标网络地址列表。/n

【技术特征摘要】
1.一种网络爬虫任务的调度方法，其特征在于，包括：
获取待爬取目标数据的初始网络地址列表；
依据所述待爬取目标数据的优先级信息，将所述初始网络地址列表对应加入目标消息队列中，创建得到爬虫任务，其中，多个目标消息队列中的每个所述目标消息队列的优先级不同；
在检测到指示执行所述爬虫任务的情况下，依据所述目标消息队列的优先级和所述初始网络地址列表爬取网页，获取目标网络地址列表；
依据所述目标网络地址列表的优先级，将所述目标网络地址列表对应放入待爬取网络地址队列中；
依据所述待爬取网络地址队列的优先级和所述目标网络地址列表爬取网页，直至无法获取得到目标网络地址列表。

2.根据权利要求1所述的方法，其特征在于，在获取待爬取目标数据的初始网络地址列表之前，所述方法还包括：
获取爬取需求信息，其中，所述爬取需求信息包括：爬取目标定义信息和/爬取目标描述信息；
确定与所述爬取需求信息对应的待爬取目标数据。

3.根据权利要求1所述的方法，其特征在于，在获取待爬取目标数据的初始网络地址列表之前，所述方法还包括：
预先定义多个基于分布式流处理库的所述目标消息队列。

4.根据权利要求1所述的方法，其特征在于，在获取目标网络地址列表之后，所述方法还包括：
确定所述目标网络地址列表中所述待爬取目标数据对应的相关网络地址；
删除所述目标网络地址列表中除所述相关网络地址之外的其他网络地址。

5.根据权利要求1所述的方法，其特征在于，在根据所述目标消息队列的优先级和所述初始网络地址列表爬取网页之后，所述方法还包括：
将已爬取的至少一个所述初始网络地址列表放入已爬取列表，...

【专利技术属性】
技术研发人员：韩湘，王志海，喻波，安鹏，董爱华，
申请(专利权)人：北京明朝万达科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人