爬虫资源分配方法、装置、设备及存储介质制造方法及图纸

技术编号:37720463 阅读:10 留言:0更新日期:2023-06-02 00:19
本发明专利技术公开了一种爬虫资源分配方法、装置、设备及存储介质,该爬虫资源分配方法包括:基于目标网站和舆情系统数据热度指标确定爬虫任务的元数据基线表;该元数据基线表中包含爬虫任务的任务状态;扫描元数据基线表获取任务状态,根据任务状态确定目标爬虫任务从目标网站抓取的目标数据所处的热度周期;根据目标爬虫任务的平均实际调度周期和承诺调度周期、及目标数据的综合热度确定爬虫线程资源数。本发明专利技术实施例通过以目标网站为粒度并结合舆情系统数据热度指标确定爬虫任务的元数据基线表,进一步根据目标数据的热度周期实现动态资源调整,可以在有限资源情况下达到整体爬虫调度目标,以及提升产品对网络数据需求的及时性和适用性。和适用性。和适用性。

【技术实现步骤摘要】
爬虫资源分配方法、装置、设备及存储介质


[0001]本专利技术涉及通信
,具体涉及一种爬虫资源分配方法、装置、设备及存储介质。

技术介绍

[0002]目前,在互联网实时数据分析处理领域,在有限资源前提下主要是通过优化实时舆情爬虫调度资源分配算法来获得最大收益,实现实时数据分析功能的用户满意度。
[0003]现有技术中存在如下舆情爬虫调度资源分配算法,即基于静态标签优先级(重要、中等、次要)队列爬虫任务调度算法,该方案不能适应网站的故障、改版、用户流失、迁移等、造成网站发帖数据量下降、导致优先级降低时的调度情况,存在着调度算法无法适应各类特殊数据应用环境的技术问题。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的爬虫资源分配方法、装置、设备及存储介质。
[0005]根据本专利技术实施例的一个方面,提供了一种爬虫资源分配方法,包括:
[0006]基于目标网站和舆情系统数据热度指标确定爬虫任务的元数据基线表;其中,所述元数据基线表中包含爬虫任务的任务状态;
[0007]扫描所述元数据基线表获取所述任务状态,根据所述任务状态确定目标爬虫任务从所述目标网站抓取的目标数据所处的热度周期;
[0008]根据所述目标爬虫任务的平均实际调度周期和承诺调度周期、及所述目标数据的综合热度确定适于所述热度周期的爬虫线程资源数。
[0009]根据本专利技术实施例的另一方面,提供了一种爬虫资源分配装置,包括:
[0010]基线表确定模块,用于基于目标网站和舆情系统数据热度指标确定爬虫任务的元数据基线表;其中,所述元数据基线表中包含爬虫任务的任务状态;
[0011]热度周期确定模块,用于扫描所述元数据基线表获取所述任务状态,根据所述任务状态确定目标爬虫任务从所述目标网站抓取的目标数据所处的热度周期;
[0012]爬虫资源确定模块,用于根据所述目标爬虫任务的平均实际调度周期和承诺调度周期、及所述目标数据的综合热度确定适于所述热度周期的爬虫线程资源数。
[0013]根据本专利技术实施例的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0014]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述爬虫资源分配方法的操作。
[0015]根据本专利技术实施例的另一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述爬虫资源分配方法的操作。
[0016]根据本专利技术上述实施例提供的方案,通过以目标网站为粒度并结合舆情系统数据热度指标确定爬虫任务的元数据基线表,进一步根据目标数据的热度周期实现动态资源调整,可以在有限资源情况下达到整体爬虫调度目标,以及提升产品对网络数据需求的及时性和适用性。
[0017]上述说明仅是本专利技术实施例技术方案的概述,为了能够更清楚了解本专利技术实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术实施例的具体实施方式。
附图说明
[0018]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0019]图1示出了本专利技术实施例一提供的爬虫资源分配方法的流程图;
[0020]图2示出了本专利技术实施例二提供的爬虫资源分配方法的流程图;
[0021]图3示出了本专利技术实施例三提供的爬虫资源分配装置的结构示意图;
[0022]图4示出了本专利技术实施例提供的计算设备的结构示意图。
具体实施方式
[0023]下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。
[0024]实施例一
[0025]图1示出了本专利技术实施例一提供的爬虫资源分配方法的流程图。如图1所示,该方法包括以下步骤:
[0026]步骤S110、基于目标网站和舆情系统数据热度指标确定爬虫任务的元数据基线表;其中,元数据基线表中包含爬虫任务的任务状态。
[0027]其中,任务状态包括破线状态和空闲状态,其中,破线状态对应的目标爬虫任务抓取的目标数据所处的热度周期为热度上涨周期,空闲状态对应的目标爬虫任务抓取的目标数据所处的热度周期为热度衰减周期。
[0028]其中,舆情系统数据热度指标包括历史热度和实时热度,为便于后续统计,元数据基线表中还可以记录爬虫名称、承诺调度周期、平均实际调度周期、历史热度、实时热度、综合热度、爬虫线程资源数、平均新增数据量等中的至少一个元数据。
[0029]其中,承诺调度周期为抓取目标网站中目标数据的期望调度周期,例如一个目标数据需要5分钟抓取一次,承诺调度周期就是5min,可以大致分为一下几个级别:
[0030]秒粒度级别:客户标注的重点微博、论坛、微信公众等目标抓取任务,更新周期比较快;
[0031]分钟粒度级别:微博、论坛类目标抓取任务,更新周期适中;
[0032]小时粒度级别:大门户的新闻网站头条动态、政府企事业单位的信息发布官网等,
更新周期较长。
[0033]其中,可以将预设个数(例如3个)完整调度周期记为一次记录周期,一个记录周期内的实际调度周期的平均值即为平均实际调度周期。
[0034]其中,历史热度为目标爬虫任务最近预设天数(例如一天或一周)抓取的目标数据的热度,实时热度为目标爬虫任务当前抓取的目标数据的热度,综合热度根据历史热度和实时热度确定。
[0035]其中,爬虫线程资源数为系统分配给目标位置的抓取线程数,为便于描述,下文中用thread代替(可理解为并发度)。
[0036]其中,平均新增数据量为当前爬虫线程资源数抓取的目标数据量相较于上一次爬虫线程资源数抓取的目标数据量的增量或减少量。
[0037]步骤S120、扫描元数据基线表获取任务状态,根据任务状态确定目标爬虫任务从目标网站抓取的目标数据所处的热度周期。
[0038]其中,任务状态与热度周期相关联,当任务状态为破线状态时,对应的热度周期为热度上涨周期,当任务状态为空闲状态时,对应的热度周期为热度衰减周期。
[0039]其中,热度上涨周期和热度衰减周期可以根据热度数据局部性原理确定,即热点数据存在时间的局部性,当前突发的热点,在未来一小段时间内即热度上涨周期可能依然是热点。对于热度衰减时段,将来一段时间即热度衰减周期大部分情况依然是处于衰减(冷门本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种爬虫资源分配方法,其特征在于,包括:基于目标网站和舆情系统数据热度指标确定爬虫任务的元数据基线表;其中,所述元数据基线表中包含爬虫任务的任务状态;扫描所述元数据基线表获取所述任务状态,根据所述任务状态确定目标爬虫任务从所述目标网站抓取的目标数据所处的热度周期;根据所述目标爬虫任务的平均实际调度周期和承诺调度周期、及所述目标数据的综合热度确定适于所述热度周期的爬虫线程资源数。2.根据权利要求1所述的方法,其特征在于,所述任务状态为破线状态,所述破线状态对应的目标爬虫任务抓取的目标数据所处的热度周期为热度上涨周期;或,所述任务状态为空闲状态,所述空闲状态对应的目标爬虫任务抓取的目标数据所处的热度周期为热度衰减周期。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述目标爬虫任务的平均实际调度周期与承诺调度周期的差值,并确定所述差值占所述承诺调度周期的占比;根据所述占比确定所述目标爬虫任务的任务状态。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述目标爬虫任务抓取的所述目标网站的历史数据在所述舆情系统中匹配的专题个数、所述舆情系统中所述历史数据的阅读记录数及所述目标爬虫任务抓取的历史数据量确定历史热度;根据所述目标爬虫任务预设记录周期的平均新增数据量和承诺调度周期确定实时热度;其中,所述预设记录周期包含预设个数实际调度周期;根据所述历史热度和所述实时热度确定所述目标数据的综合热度。5.根据权利要求1

4任一项所述的方法,其特征在于,所述根据所述目标爬虫任务的平均实际调度周期和承诺调度周期、及所述目标数据的综合热度确定适于所述热度周期的爬虫线程资源数,包括:根据所述目标爬虫任务的平均实际调度周期和承诺调度周期、及所述目标数据的综合热度确定新增或删减的爬虫线程资源数;根据...

【专利技术属性】
技术研发人员:李学环沈国栋
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1