一种网络爬虫调度方法、装置、设备及可读存储介质制造方法及图纸

技术编号:34086768 阅读:20 留言:0更新日期:2022-07-11 20:11
本发明专利技术提供一种网络爬虫调度方法、装置、设备及可读存储介质,涉及网络爬虫技术领域,该网络爬虫调度方法,包括获取目标网站在目标时刻前第一时间段内的历史信息发布数据;基于历史信息发布数据与第一时间段,获取信息发布数据与目标时间段之间的对应关系,第一时间段包括多个目标时间段;基于对应关系预测目标网站在目标时刻后第二时间段内的预测信息发布数据;基于目标时间段和预测信息发布数据确定调度频率;基于调度频率执行网络爬虫调度。可以解决现有的网络爬虫调度方法无法在节省硬件资源的同时提升网络爬取的时效性的问题。件资源的同时提升网络爬取的时效性的问题。件资源的同时提升网络爬取的时效性的问题。

【技术实现步骤摘要】
一种网络爬虫调度方法、装置、设备及可读存储介质


[0001]本专利技术涉及网络爬虫
,尤其涉及一种网络爬虫调度方法、装置、设备及可读存储介质。

技术介绍

[0002]网络爬虫(Web Crawler)是指一系列按照特定规则进行互联网信息自动抓取的程序或者脚本,它通常从一个称为种子页面的列表页开始抓取,通过遍历请求其中的详情页链接,获取到详情页响应并提取出目标信息。
[0003]目前采用的网络爬虫调度方法,是根据间隔时间对种子页面进行抓取和遍历。由于间隔时间的设置存在较多弊端,如果设置的间隔时间过长,不能及时获取到最新的数据,降低了获取数据的时效性;如果设置的间隔时间太短,则对硬件资源要求较高,可见,现有的网络爬虫调度方法无法在节省硬件资源的同时提升网络爬取的时效性。

技术实现思路

[0004]本专利技术实施例提供一种网络爬虫调度方法、装置、设备及可读存储介质,以解决现有的网络爬虫调度方法无法在节省硬件资源的同时提升网络爬取的时效性的问题。
[0005]为解决上述技术问题,本专利技术是这样实现的:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络爬虫调度方法,其特征在于,包括:获取目标网站在目标时刻前第一时间段内的历史信息发布数据;基于所述历史信息发布数据与所述第一时间段,获取信息发布数据与目标时间段之间的对应关系,所述第一时间段包括多个所述目标时间段;基于所述对应关系预测所述目标网站在所述目标时刻后第二时间段内的预测信息发布数据;基于所述目标时间段和所述预测信息发布数据确定调度频率;基于所述调度频率执行网络爬虫调度。2.根据权利要求1所述的网络爬虫调度方法,其特征在于,所述基于所述历史信息发布数据与所述第一时间段,获取信息发布数据与目标时间段之间的对应关系,包括:基于预测模型获取信息发布数据与目标时间段之间的对应关系,其中,所述预测模型为输入为所述历史信息发布数据,输出为预测信息发布数据的神经网络模型;所述基于所述对应关系预测所述目标网站在所述目标时刻后第二时间段内的预测信息发布数据,包括:获取所述预测模型输出的在所述目标时刻后第二时间段内的预测信息发布数据。3.根据权利要求1所述的网络爬虫调度方法,其特征在于,所述基于所述目标时间段和所述预测信息发布数据确定调度频率,包括:基于所述目标时间段和所述预测信息发布数据的比值,确定调度频率。4.根据权利要求1所述的网络爬虫调度方法,其特征在于,所述基于所述历史信息发布数据与所述第一时间段,获取信息发布数据与目标时间段之间的对应关系,包括:将所述第一时间段等分为多个目标时间段;基于所述历史信息发布数据确定每一个所述目标时间段内的信息发布数量;确定所述信息发布数量与所述目标时间段之间的对应关系。5.根据权利要求4所述的网络爬虫调度方法,其特征在于,所述基于所述对应关系预测所述目标网站在所述目标时刻后第二时间段内的预测信息发布数据,包括:基...

【专利技术属性】
技术研发人员:边增亚
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1