一种通过爬虫状态机管理爬虫的方法及装置制造方法及图纸

技术编号:17779785 阅读:87 留言:0更新日期:2018-04-22 08:20
本发明专利技术公开了一种通过爬虫状态机管理爬虫的方法及装置。所述通过爬虫状态机管理爬虫的方法,包括:根据预设的爬虫规则生成爬虫状态机;将爬虫工作分解为多个阶段;运行所述各个阶段的爬虫工作对应的爬虫任务;在当前阶段的爬虫任务结束后,更新所述爬虫状态机的当前阶段的状态;在所述爬虫状态机的当前阶段满足预设的完成条件时,运行下一个阶段的爬虫工作对应的爬虫任务。本发明专利技术使得用户可直观的观测到爬虫的运行情况,也方便了相关的技术人员针对性的调整爬虫策略,从而提升了用户和技术人员的使用体验。

【技术实现步骤摘要】
一种通过爬虫状态机管理爬虫的方法及装置
本专利技术涉及爬虫
,特别涉及一种通过爬虫状态机管理爬虫的方法及装置。
技术介绍
爬虫在完成最终任务的过程中会经历多个阶段。其中,每一个阶段需要进行若干个爬虫任务才可完成该阶段。状态机简写为FSM(FiniteStateMachine),由状态寄存器和组合逻辑电路构成,能够根据控制信号按照预先设定的状态进行状态转移,是协调相关信号动作、完成特定操作的控制中心。状态机主要分为2大类:第一类,若输出只和状态有关而与输入无关,则称为Moore状态机;第二类,输出不仅和状态有关而且和输入有关系,则称为Mealy状态机。在准确的监控爬虫的进展情况的方面,现有技术中缺乏妥善的解决方案。如何妥善的处理上述问题,就成为了业界亟待解决的课题。
技术实现思路
本专利技术提供一种通过爬虫状态机管理爬虫的方法及装置,用以使得用户可直观的观测到爬虫的运行情况,也方便了相关的技术人员针对性的调整爬虫策略,从而提升了用户和技术人员的使用体验。根据本专利技术实施例的第一方面,提供一种通过爬虫状态机管理爬的方法,包括:根据预设的爬虫规则生成爬虫状态机;将爬虫工作分解为多个阶段本文档来自技高网...
一种通过爬虫状态机管理爬虫的方法及装置

【技术保护点】
一种通过爬虫状态机管理爬虫的方法,其特征在于,包括:根据预设的爬虫规则生成爬虫状态机;将爬虫工作分解为多个阶段;运行所述各个阶段的爬虫工作对应的爬虫任务;在当前阶段的爬虫任务结束后,更新所述爬虫状态机的当前阶段的状态;在所述爬虫状态机的当前阶段满足预设的完成条件时,运行下一个阶段的爬虫工作对应的爬虫任务。

【技术特征摘要】
1.一种通过爬虫状态机管理爬虫的方法,其特征在于,包括:根据预设的爬虫规则生成爬虫状态机;将爬虫工作分解为多个阶段;运行所述各个阶段的爬虫工作对应的爬虫任务;在当前阶段的爬虫任务结束后,更新所述爬虫状态机的当前阶段的状态;在所述爬虫状态机的当前阶段满足预设的完成条件时,运行下一个阶段的爬虫工作对应的爬虫任务。2.如权利要求1所述的方法,其特征在于,所述将由爬虫工作分解为多个阶段,包括:将由所述预设的爬虫规则生成的爬虫工作分解为多个阶段;将所述爬虫工作的多个阶段中的各个阶段与所述爬虫状态机中的各个状态形成一一映射关系。3.如权利要求1所述的方法,其特征在于,所述运行所述各个阶段的爬虫工作对应的爬虫任务,包括:分析出所述各个阶段的爬虫工作的先后执行顺序;按照所述各个阶段的先后执行顺序,来运行各个阶段对应的爬虫工作对应的爬虫任务,所述爬虫任务的数量至少为一个。4.如权利要求1所述的方法,其特征在于,所述在当前阶段的爬虫任务结束后,更新所述爬虫状态机的当前阶段的状态,包括:运行与当前阶段相应的爬虫任务来完成当前阶段;在所述当前阶段相应的爬虫任务全部运行完成后,更新当前阶段的状态。5.如权利要求1所述的方法,其特征在于,所述在所述爬虫状态机的当前阶段满足预设的完成条件时,运行下一个阶段的爬虫工作对应的爬虫任务,包括:实时检测更新后的爬虫状态机的当前阶段的状态;若更新后的爬虫状态机的当前阶段为未完成状态时,针对所述当前阶段再次生成新的爬虫任务并运行;当所述爬虫状态机的当前阶段为完成状态时,继续运行下一个阶段的爬虫工作对应的爬虫任务,直至爬虫状态机的所有阶段全部为完成状态。6.一种通过爬虫状态机...

【专利技术属性】
技术研发人员:郭建辉
申请(专利权)人:天脉聚源北京传媒科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1