一种爬虫调度方法、装置及系统制造方法及图纸

技术编号:34360592 阅读:74 留言:0更新日期:2022-07-31 07:26
本发明专利技术提供一种爬虫调度方法、装置及系统,涉及网络爬虫技术领域。该方法包括:创建M个请求网页服务和N个解析网页服务;根据物理机性能参数,对请求网页服务和/或解析网页服务进行扩容或缩容;其中,物理机性能参数包括任务负载和CPU利用率。本发明专利技术的方案,解决了爬虫系统资源利用率不合理的问题。虫系统资源利用率不合理的问题。虫系统资源利用率不合理的问题。

【技术实现步骤摘要】
一种爬虫调度方法、装置及系统


[0001]本专利技术涉及网络爬虫领域
,特别是指一种爬虫调度方法、装置及系统。

技术介绍

[0002]现有的爬虫系统在开始运行时,启动多个分布式爬虫服务,然后根据各服务的处理能力进行负载均衡,把任务分配到处理能力较强,即积压任务较少的服务。也就是说,爬虫系统在启动时便确定了集群服务的数量,根据各服务的处理能力进行负载均衡,把任务调度到积压任务少的服务上,但是一个服务处理能力差并不代表该服务所在的物理机能已被耗尽,可能仅仅是因为任务比较复杂,耗时较长所致。同时任务较少时,则有大量服务处于空闲状态,会占用一定系统资源,不利于系统资源的合理利用。

技术实现思路

[0003]本专利技术提供一种爬虫调度方法、装置及系统,解决了现有爬虫系统的调度方式导致的系统资源利用不合理的问题。
[0004]为达到上述目的,本专利技术的实施例提供一种爬虫调度方法,包括:
[0005]创建M个请求网页服务和N个解析网页服务;
[0006]根据物理机性能参数,对请求网页服务和/或解析网页服务进行扩容或缩容;其中,物理机性能参数包括任务负载和CPU利用率。
[0007]可选地,创建为M个请求网页服务和N个解析网页服务的步骤,包括:
[0008]根据物理机的CPU个数,创建M个请求网页服务和N个解析网页服务。
[0009]可选地,根据物理机性能参数,对请求网页服务和/或解析网页服务进行扩容或缩容的步骤,包括:
[0010]若任务负载数量大于第一阈值,或CUP利用率大于第二阈值,减少请求网页服务和/或解析网页服务的数量;
[0011]若任务负载数量小于或等于第三阈值,或CUP利用率小于或等于第四阈值,增加请求网页服务和/或解析网页服务的数量。
[0012]可选地,若任务负载数量大于第一阈值,或CUP利用率大于第二阈值,减少请求网页服务和/或解析网页服务的数量的步骤,包括:
[0013]在处理目录中的积压文件大于第一门限值的情况下,若任务负载数量大于第一阈值,或CUP利用率大于第二阈值,减少请求网页服务的数量;
[0014]在处理目录中的空载率低于第二门限值的情况下,若任务负载数量大于第一阈值,或CUP利用率大于第二阈值,减少解析网页服务的数量。
[0015]可选地,若任务负载数量小于或等于第三阈值,或CUP利用率小于或等于第四阈值,增加网页服务和/或解析网页服务的数量的步骤,包括:
[0016]在处理目录中的积压文件大于第一门限值的情况下,若任务负载数量小于或等于第三阈值,或CUP利用率小于或等于第四阈值,增加解析网页服务的数量;
[0017]在处理目录中的空载率低于第二门限值的情况下,若任务负载数量小于或等于第三阈值,或CUP利用率小于或等于第四阈值,增加请求网页服务的数量。
[0018]可选地,创建M个请求网页服务和N个解析网页服务的步骤之后,还包括:
[0019]所述请求网页服务从存储介质中读取爬虫任务;
[0020]根据所述爬虫任务,执行请求网页的操作,并将读取到的网页内容以文件形式存储在未处理目录中。
[0021]可选地,将读取到的网页内容以文件形式存储在未处理目录中的步骤之后,还包括:
[0022]根据负载均衡策略,分配网页服务从未处理目录中读取文件,并将读取到的文件移动至处理目录中。
[0023]可选地,根据负载均衡策略,分配网页服务从未处理目录中读取文件,并将读取到的文件移动至处理目录中的步骤,包括:
[0024]在爬虫系统启动初期,按照轮训的方式,分配网页服务从未处理目录中读取文件,并将读取到的文件移动至处理目录中;
[0025]若处理目录中最大文件和最小文件数相差超过阈值,分配网页服务则从未处理目录中读取文件,并将读取到的文件移动至最小文件数的处理目录中。
[0026]可选地,将读取到的文件移动至处理目录中的步骤之后,还包括:
[0027]所述解析网页服务从处理目录中读取文件;
[0028]对读取到的文件进行处理,并将处理后的文件移动到已处理目录中。
[0029]为达到上述目的,本专利技术的实施例提供一种爬虫调度装置,包括:
[0030]创建模块,用于创建M个请求网页服务和N个解析网页服务;
[0031]调度模块,用于根据物理机性能参数,对请求网页服务和/或解析网页服务进行扩容或缩容;其中,物理机性能参数包括任务负载和CPU利用率。
[0032]可选地,所述创建模块包括:
[0033]创建子模块,用于根据物理机的CPU个数,创建M个请求网页服务和N个解析网页服务。
[0034]可选地,所述调度模块包括:
[0035]第一调度子模块,用于若任务负载数量大于第一阈值,或CUP利用率大于第二阈值,减少请求网页服务和/或解析网页服务的数量;
[0036]第二调度子模块,用于若任务负载数量小于或等于第三阈值,或CUP利用率小于或等于第四阈值,增加请求网页服务和/或解析网页服务的数量。
[0037]可选地,所述第一调度子模块包括:
[0038]第一调度单元,用于在处理目录中的积压文件大于第一门限值的情况下,若任务负载数量大于第一阈值,或CUP利用率大于第二阈值,减少请求网页服务的数量;
[0039]第二调度单元,用于在处理目录中的空载率低于第二门限值的情况下,若任务负载数量大于第一阈值,或CUP利用率大于第二阈值,减少解析网页服务的数量。
[0040]可选地,所述第二调度子模块包括:
[0041]第三调度单元,用于在处理目录中的积压文件大于第一门限值的情况下,若任务负载数量小于或等于第三阈值,或CUP利用率小于或等于第四阈值,增加解析网页服务的数
量;
[0042]第四调度单元,用于在处理目录中的空载率低于第二门限值的情况下,若任务负载数量小于或等于第三阈值,或CUP利用率小于或等于第四阈值,增加请求网页服务的数量。
[0043]可选地,所述爬虫调度装置还包括:
[0044]第一读取模块,用于使所述请求网页服务从存储介质中读取爬虫任务;
[0045]第一处理模块,用于根据所述爬虫任务,执行请求网页的操作,并将读取到的网页内容以文件形式存储在未处理目录中。
[0046]可选地,所述爬虫调度装置还包括:
[0047]分配模块,用于根据负载均衡策略,分配网页服务从未处理目录中读取文件,并将读取到的文件移动至处理目录中。
[0048]可选地,所述分配模块包括:
[0049]第一分配子模块,用于在爬虫系统启动初期,按照轮训的方式,分配网页服务从未处理目录中读取文件,并将读取到的文件移动至处理目录中;
[0050]第二分配子模块,用于若处理目录中最大文件和最小文件数相差超过阈值,分配网页服务则从未处理目录中读取文件,并将读取到的文件移动至最小文件数的处理目录中。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种爬虫调度方法,其特征在于,包括:创建M个请求网页服务和N个解析网页服务;根据物理机性能参数,对请求网页服务和/或解析网页服务进行扩容或缩容;其中,所述物理机性能参数包括任务负载和CPU利用率。2.根据权利要求1所述的爬虫调度方法,其特征在于,创建为M个请求网页服务和N个解析网页服务的步骤,包括:根据物理机的CPU个数,创建M个请求网页服务和N个解析网页服务。3.根据权利要求1所述的爬虫调度方法,其特征在于,根据物理机性能参数,对请求网页服务和/或解析网页服务进行扩容或缩容的步骤,包括:若任务负载数量大于第一阈值,或CUP利用率大于第二阈值,减少请求网页服务和/或解析网页服务的数量;若任务负载数量小于或等于第三阈值,或CUP利用率小于或等于第四阈值,增加请求网页服务和/或解析网页服务的数量。4.根据权利要求3所述的爬虫调度方法,其特征在于,若任务负载数量大于第一阈值,或CUP利用率大于第二阈值,减少请求网页服务和/或解析网页服务的数量的步骤,包括:在处理目录中的积压文件大于第一门限值的情况下,若任务负载数量大于第一阈值,或CUP利用率大于第二阈值,减少请求网页服务的数量;在处理目录中的空载率低于第二门限值的情况下,若任务负载数量大于第一阈值,或CUP利用率大于第二阈值,减少解析网页服务的数量。5.根据权利要求3所述的爬虫调度方法,其特征在于,若任务负载数量小于或等于第三阈值,或CUP利用率小于或等于第四阈值,增加网页服务和/或解析网页服务的数量的步骤,包括:在处理目录中的积压文件大于第一门限值的情况下,若任务负载数量小于或等于第三阈值,或CUP利用率小于或等于第四阈值,增加解析网页服务的数量;在处理目录中的空载率低于第二门限值的情况下,若任务负载数量小于或等于第三阈值,或CUP利用率小于或等于第四阈值,增加请求网页服务的数量。6.根据权利要求1所述的爬虫调度方法,其特征在于,创建M个请求网页服务和N个解析网页服务的步骤之后,还包括:所述请求网页服务从存储介质中读取爬虫任务;根据所述爬虫任务,执行请求网页的操作,并将读取到的网页内容以文件形式存储在未...

【专利技术属性】
技术研发人员:高经纬
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1