爬虫数据监控方法、系统、计算机设备及存储介质技术方案

技术编号:29583797 阅读:18 留言:0更新日期:2021-08-06 19:41
本发明专利技术实施例公开了一种爬虫数据监控方法,通过接收上报至搜索数据分析引擎的初始爬虫日志,其中,初始爬虫日志为日志收集器从日志收集器对应的节点服务器上搜集得到;通过数据分析引擎对初始爬虫日志进行分析,得到采样爬虫数据;对采样爬虫数据进行统计分析,确定监控结果,实现了对爬虫过程的自动化监控,提高了对爬虫数据的处理效率,进而提高了爬虫数据的稳定性和准确性,满足了大规模爬虫的需求。此外,还提出了一种爬虫数据监控装置、计算机设备及存储介质。

【技术实现步骤摘要】
爬虫数据监控方法、系统、计算机设备及存储介质
本专利技术涉及计算机
,尤其涉及一种爬虫数据监控方法、系统、计算机设备及存储介质。
技术介绍
爬虫数据是一种通过自动动地抓取万维网信息的数据。在实际应用中,往往在多网站、高并发、分布式、高频爬取,日爬取量在千万级别的场景下,爬虫数据的数量庞大,如何有效长期的管理爬虫数据,对爬虫数据进行排查纠错、数据同步、过期数据监控等,提高爬虫的准确性和稳定性存在一定的难度。传统的爬虫数据监控方法都是通过人工对数据进行分析,实现对爬虫数据的监控,降低了监控效率和容易出错和遗漏,降低了爬虫数据的准确性和稳定性。
技术实现思路
基于此,有必要针对上述问题,提出一种能够提高爬虫数据准确性和稳定性的爬虫数据监控方法、系统、计算机设备及存储介质。一种爬虫数据监控方法,应用于爬虫数据监控系统,所述爬虫数据监控系统包括多个节点服务器和主服务器,所述节点服务器均部署有日志搜集器,所述主服务器部署有搜索数据分析引擎,所述方法包括所述主服务器执行的如下步骤:接收上报至所述搜索数据分析引擎的初始爬虫日志,其中,所述初始爬虫日志为所述日志收集器从所述日志收集器对应的节点服务器上搜集得到;通过所述数据分析引擎对所述初始爬虫日志进行分析,得到采样爬虫数据;对所述采样爬虫数据进行统计分析,确定监控结果。所述方法包括:一种爬虫数据监控系统,包括多个节点服务器和主服务器,所述节点服务器均部署有日志搜集器,所述主服务器部署有搜索数据分析引擎,所述爬虫数据监控系统包括:接收模块,用于接收上报至所述搜索数据分析引擎的初始爬虫日志,其中,所述初始爬虫日志为所述日志收集器从所述日志收集器对应的节点服务器上搜集得到;分析模块,用于通过所述数据分析引擎对所述初始爬虫日志进行分析,得到采样爬虫数据;确定模块,用于对所述采样爬虫数据进行统计分析,确定监控结果。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:接收上报至所述搜索数据分析引擎的初始爬虫日志,其中,所述初始爬虫日志为所述日志收集器从所述日志收集器对应的节点服务器上搜集得到;通过所述数据分析引擎对所述初始爬虫日志进行分析,得到采样爬虫数据;对所述采样爬虫数据进行统计分析,确定监控结果。一种计算机可读介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:接收上报至所述搜索数据分析引擎的初始爬虫日志,其中,所述初始爬虫日志为所述日志收集器从所述日志收集器对应的节点服务器上搜集得到;通过所述数据分析引擎对所述初始爬虫日志进行分析,得到采样爬虫数据;对所述采样爬虫数据进行统计分析,确定监控结果。上述爬虫数据监控方法、系统、计算机设备及存储介质,应用于爬虫数据监控系统,所述爬虫数据监控系统包括多个节点服务器和主服务器,其特征在于,所述节点服务器均部署有日志搜集器,所述主服务器部署有搜索数据分析引擎,通过日志搜集器搜集各个所述节点服务器的初始爬虫日志;将所述初始爬虫日志上报所述搜索数据分析引擎;通过所述数据分析引擎对所述初始爬虫日志进行分析,得到采样爬虫数据;对所述采样爬虫数据进行统计分析,确定监控结果,通过收集节点服务器的初始爬虫日志,并实时将所收集的初始爬虫日志并进行统计处理,实现了对爬虫过程的自动化监控,提高了对爬虫数据的处理效率,进而提高了爬虫数据的稳定性和准确性,满足了大规模爬虫的需求。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:图1为一个实施例中爬虫数据监控方法的流程图;图2为一个实施例中采样爬虫数据获取方法的流程图;图3为一个实施例中监控结果确定方法的流程图;图4为另一个实施例中采样爬虫数据获取方法的流程图;图5为另一个实施例中爬虫数据监控方法的流程图;图6为一个实施例中爬虫数据监控系统的结构框图;图7为一个实施例中计算机设备的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,在一个实施例中,提供了一种爬虫数据监控方法,该爬虫数据监控方法应用于爬虫数据监控系统,该爬虫数据监控系统包括多个节点服务器和主服务器,该节点服务器均部署有日志搜集器,该主服务器部署有搜索数据分析引擎,本实施例以应用于主服务器举例说明。该爬虫数据监控方法具体包括以下步骤:步骤102,接收上报至搜索数据分析引擎的初始爬虫日志,其中,初始爬虫日志为日志收集器从日志收集器对应的节点服务器上搜集得到。其中,节点服务器是指与主服务器通讯的从服务器。在大规模的爬虫数据监控系统中,由于爬虫数据量庞大,因此,通过部署多个节点服务器以分散记录爬虫日志,扩大爬虫日志及爬虫数据的存储空间,提高主服务器的运行性能和爬虫数据的处理效率。初始爬虫日记为日志搜集器在节点服务器中搜索得到的日志目录或特定的日志文件。搜索数据分析引擎可以是logstash或Elasticsearch。日志搜集器包括但不限于是Filebeat,Filebeat是一个开源的文件收集器,采用go语言开发,重构logstash采集器源码,安装在服务器上作为代理来监视日志目录或特定的日志文件,并把它们发送到主服务上的搜索数据分析引擎,即上报至搜索数据分析引擎,这样,主服务接收到该初始爬虫日志。可以理解地,由于初始爬虫日记记录了爬虫过程的相关信息,因此,通过获取各个节点服务器上的初始爬虫日志,以便后续基于所有的初始爬虫日记对爬虫数据进行全面准确的分析。步骤104,通过数据分析引擎对初始爬虫日志进行分析,得到采样爬虫数据。其中,数据分析引擎用于对数据进行搜索和分析,该数据分析引擎可以是logstash或Elasticsearch,作为本实施例的优选,选取Elasticsearch,利用Elasticsearch分布式的特点提高对初始爬虫日志搜索分析的实时性。采样爬虫数据是指对初始爬虫数据进行分析后得到的有价值数据,其中的分析包括数据挖掘分析和数据清洗,如清洗一些干扰数据,即用户无需监控的爬虫数据或者过期数据等。具体地,建立初始爬虫数据的索引,根据需要清洗的字段查找到索引,基于索引设置数据清洗策略对初始爬虫日志进行清洗,得到采样爬虫数据。本实施例中,通过对初始爬虫日志进行分析,实现了数据清洗,减少对干扰数据的计算,使得采样爬虫数据更加准确本文档来自技高网...

【技术保护点】
1.一种爬虫数据监控方法,应用于爬虫数据监控系统,所述爬虫数据监控系统包括多个节点服务器和主服务器,其特征在于,所述节点服务器均部署有日志搜集器,所述主服务器部署有搜索数据分析引擎,所述方法包括所述主服务器执行的如下步骤:/n接收上报至所述搜索数据分析引擎的初始爬虫日志,其中,所述初始爬虫日志为所述日志收集器从所述日志收集器对应的节点服务器上搜集得到;/n通过所述数据分析引擎对所述初始爬虫日志进行分析,得到采样爬虫数据;/n对所述采样爬虫数据进行统计分析,确定监控结果。/n

【技术特征摘要】
1.一种爬虫数据监控方法,应用于爬虫数据监控系统,所述爬虫数据监控系统包括多个节点服务器和主服务器,其特征在于,所述节点服务器均部署有日志搜集器,所述主服务器部署有搜索数据分析引擎,所述方法包括所述主服务器执行的如下步骤:
接收上报至所述搜索数据分析引擎的初始爬虫日志,其中,所述初始爬虫日志为所述日志收集器从所述日志收集器对应的节点服务器上搜集得到;
通过所述数据分析引擎对所述初始爬虫日志进行分析,得到采样爬虫数据;
对所述采样爬虫数据进行统计分析,确定监控结果。


2.根据权利要求1所述的爬虫数据监控方法,其特征在于,所述数据分析引擎为Elasticsearch,所述通过所述数据分析引擎对所述初始爬虫日志进行分析,得到采样爬虫数据,包括:
获取多个预设的监控项;
基于所述监控项,利用所述Elasticsearch中的过滤器对所述初始爬虫数据进行清洗,得到所述采样爬虫数据。


3.根据权利要求1所述的爬虫数据监控方法,其特征在于,所述对所述采样爬虫数据进行统计分析,确定监控结果,包括:
根据所述监控项对应的字段作为目标字段,从所述采样爬虫数据提取所述目标字段对应的数据进行统计,得到统计结果;
若统计结果满足预设条件,确定所述监控结果为监控正常;
若统计结果不满足预设条件,确定所述监控结果为监控异常。


4.根据权利要求2所述的爬虫数据监控方法,其特征在于,所述对所述采样爬虫数据进行统计分析,确定监控结果,包括:
将所述采样爬虫数据存储在数据库中;
根据所述监控项和预设条件,执行对应的统计分析脚本,生成所述监控结果。


5.根据权利要求3所述的爬...

【专利技术属性】
技术研发人员:常江熊斌李成刚陈森彬
申请(专利权)人:深圳市猎芯科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1