计算机服务器集群日志监控方法及监控平台技术

技术编号:17779587 阅读:29 留言:0更新日期:2018-04-22 08:02
本发明专利技术涉及计算机技术领域,具体为一种计算机服务器集群日志监控方法及监控平台,该监控方法的具体步骤包括:A.监控计算机服务器集群中的各个服务器在运行过程中主板产生的海量机器码指令,利用大数据技术中的实时流数据采集框架对主板产生的机器码指令进行实时采集;B.对采集到的数据进行数据分类和转移操作,包括实时地过滤,加工并存储;C.对步骤B处理后的数据进行实时分析和展示,获得实时分析结果并存储;D.结合实时分析结果和存储的历史分析结果进行分析,得出计算机服务器潜在异常结果,并进行预警和通知。本发明专利技术具有实时、可扩展、自动化、高可用和API扩展丰富等优点。

【技术实现步骤摘要】
计算机服务器集群日志监控方法及监控平台
本专利技术涉及计算机
,具体为一种计算机服务器集群日志监控方法及监控平台。
技术介绍
随着信息时代的到来,大数据、云计算和机器学习等技术逐渐成为计算机领域的研究热点。大数据、云计算、机器学习等技术具有一个共同的特点:需要进行复杂而庞大的计算,因此,往往需要使用大量的计算机服务器组成一个或多个集群进行并行计算,合力完成一项或多项计算任务。近年来随着需求日益旺盛,计算机服务器集群规模也从原来的几十台逐渐发展成几百台、几千台,甚至几万台。随着计算机服务器集群的大规模化,如何管控集群性能指标(例如:服务器的CPU、内存、网络的使用情况、磁盘I/O读写情况等)和如何及时发现集群存在的问题并及时处理逐渐成为机房运维人员面临的的大难题。现有技术中,机房运维人员采用的主要方法有:(1)机房定期巡检,查看服务器的指示灯是否有告警;(2)利用互联网上的一些免费的服务器监控软件,进行协助管理。然而,随着服务器数量越来越多,成千上万台的服务器,单凭机房管理人员定期巡检,通过肉眼去判断、查看问题,不仅工作量太大,而且容易造成错检、漏检。即使利用互联网上面的监控软件进行协助管理也存在很大的安全问题,由于这些监控软件的内部结构未知,贸然使用,存在木马病毒攻击或黑客入侵风险,并且这些监控软件通常只适用于计算机服务器集群数量较少的应用场合,当服务器数量为几十台时,软件运行性能良好;但如果服务器达到了几百台,几千台甚至几万台,则软件性能会显著下降,甚至出现软件无法支持的情况。针对上述问题,国内研究人员也开发了一些专门针对计算机服务器集群的日志收集或者监控方法。例如,中国专利公开号为CN105095502A的专利技术专利申请就公开了一种集群存储系统的日志收集方法,其技术方案为:一种集群存储系统的日志收集方法,该方法所包含的模块有日志管理模块、日志收集模块、日志代理模块,所述的日志管理模块运行在集群中主监控器节点上,负责管理协调日志收集模块和日志代理模块,该模块以嵌入式的方式,整合到集群存储系统的业务流程中,所述的日志收集模块运行在集群中主监控器节点上,负责收集管理多个日志代理模块推送来的数据,并将数据分类存储到制定的目录下,根据集群的规模动态配置日志收集模块的大小,所述的日志代理模块运行在集群中的各个节点上,负责收集所在节点上的集群存储系统的的Log日志,并将日志推送给日志收集模块,所述的每一个日志代理模块可监听1024个文件,所述的日志代理模块配置文件中的发送日志安全级别属性为E2E和SendOnly。该方法虽然能够实现日志的收集,但是存在非实时性、非分布式存放、无异常预警等缺点,并且无法通过系统平台直接可视化地展示计算机集群中服务器的信息,不利于机房运维人员实时监控。中国专利公开号为CN106326008的专利技术专利申请也公开了一种面向集群系统的监控方法,其技术方案主要包括以下步骤:步骤一,采集集群系统中个基点的详细属性和基本工作状态,生成各节点基本工作状态的报告日志;步骤二,根据步骤一中得到的各节点的基本工作状态,判断是否有节点超过节点阈值或因故障而停止工作;若存在有几点的基本工作状态超过系统设定的阈值或处于停止工作状态,则扫描统计整个集群系统的资源使用情况,并判断集群系统的资源使用情况是否超出系统阈值,同时生成整个集群系统的资源使用情况报告日志;步骤三,若步骤二中整个集群系统的资源情况未超过系统阈值,则扫描查找集群系统中处于空闲状态的节点,令处于空闲状态的节点分流所述基本工作状态超过节点阈值的节点的作业;步骤四,若步骤二中整个集群系统的资源情况超过系统阈值,则通过系统对各作业的优先级判定,使优先级最低的任务停止工作进入队列排队等待。该专利是通过控制端节点扫描集群中的每台计算机,获取集群中计算机的相关信息,这种处理方式无法实现实时监控特别是当集群中计算机数量多时,扫描花费时间较长,通过网络扫描会消耗集群中的网络资源,影响集群的网络资源质量。因此,亟待开发一种实时、监控可视化、不影响集群网络资源质量的计算机服务器集群日志监控方法及平台。
技术实现思路
针对现有技术中的问题,本专利技术提供一种能够实时监控并且监控结果可视化、不影响集群网络资源质量的计算机服务器集群日志监控方法及监控平台。为实现以上技术目的,本专利技术的技术方案是:一种计算机服务器集群日志监控方法,具体步骤包括:A.监控计算机服务器集群中的各个服务器在运行过程中主板产生的海量机器码指令,利用大数据技术中的实时流数据采集框架对主板产生的机器码指令数据进行实时采集,所述机器码指令至少包括内存指令、CPU指令、磁盘IO指令、网络流量指令、TCP连接数指令、应用进程参数指令;B.对采集到的机器码指令进行数据分类和转移操作,包括实时地过滤、加工及存储;C.对步骤B处理后的数据进行实时分析和展示,获得实时分析结果并存储;D.结合实时分析结果和存储的历史分析结果进行分析,得出计算机服务器潜在异常结果,并进行预警和通知。作为改进,步骤A中,通过RHCS技术,在2台服务器上部署主监控节点的监控服务,监控服务自动在计算机服务器集群中的服务器上部署采集代理,以保证监控服务在高可用状态,主监控节点能自动扫描发现并添加集群内新增的服务器至监控列表,自动添加被监控服务器的监控项;2台服务器采用主-从服务器的工作方式:主服务器工作,从服务器处于监控准备状况;当主服务器宕机时,从服务器接管主服务器的一切工作,待主服务器恢复正常后,按使用者的设定以自动或手动方式将服务切换到主服务器上运行。作为优选,所述流数据采集框架包括N个采集代理模块、采集服务模块、数据过滤模块、动态性能平衡模块和分布式流计算模块,所述N个采集代理模块运行在N个被监控节点上,实时采集被监控节点上的海量机器码指令,所述采集服务模块运行在主监控节点上,实时采集各采集代理模块发送的机器码指令并将其发送至数据过滤模块,所述数据过滤模块运行在主监控节点上,接收采集服务模块发送的机器码指令并将进行初步过滤,并将过滤后的机器码指令发送至分布式流计算模块,所述动态性能平衡模块用于动态平衡采集代理模块与采集服务模块、采集服务模块与数据过滤模块、数据过滤模块与分布式流计算模块之间的服务性能。作为改进,步骤A中所述的采集代理模块的采集项目可添加和配置,采集项目的相关阈值可设置。作为优选,步骤B所述的实时地过滤、加工及存储具体包括:通过基于Flueme+Kafka+Strom框架的分布式流计算服务把服务器生成的机器码半结构化数据进行初步的过滤,保留用于分析的数据,再把该部分的数据翻译成可读的、有规律的结构化及半结构化数据,翻译后的数据通过HBase高性能列式数据库进行存储,结合Phoenix对外提供数据的实时读/写,HBase利用HDFS分布式文件系统做持久化数据存储,同时使用Hive提供静态结构化数据的查询,其使用类SQL语言,底层经过编译转位MapReduce程序在Hadoop上运行,当数据存储节点使用率过高时,通过增加新的存储节点进行水平扩展以保证步骤B的正常运行。作为优选,步骤C具体包括:对步骤B获得的数据流通过基于Nginx+PHP前端的Web进行实时的图线和报表展示,同时对数据流进行数据分析,标记出存在异常的数本文档来自技高网
...
计算机服务器集群日志监控方法及监控平台

【技术保护点】
一种计算机服务器集群日志监控方法,具体步骤包括:A.监控计算机服务器集群中的各个服务器在运行过程中主板产生的海量机器码指令,利用大数据技术中的实时流数据采集框架对主板产生的机器码指令数据进行实时采集,所述机器码指令至少包括内存指令、CPU指令、磁盘IO指令、网络流量指令、TCP连接数指令、应用进程参数指令;B.对采集到的机器码指令进行数据分类和转移操作,包括实时地过滤、加工及存储;C.对步骤B处理后的数据进行实时分析和展示,获得实时分析结果并存储;D.结合实时分析结果和存储的历史分析结果进行分析,得出计算机服务器潜在异常结果,并进行预警和通知。

【技术特征摘要】
1.一种计算机服务器集群日志监控方法,具体步骤包括:A.监控计算机服务器集群中的各个服务器在运行过程中主板产生的海量机器码指令,利用大数据技术中的实时流数据采集框架对主板产生的机器码指令数据进行实时采集,所述机器码指令至少包括内存指令、CPU指令、磁盘IO指令、网络流量指令、TCP连接数指令、应用进程参数指令;B.对采集到的机器码指令进行数据分类和转移操作,包括实时地过滤、加工及存储;C.对步骤B处理后的数据进行实时分析和展示,获得实时分析结果并存储;D.结合实时分析结果和存储的历史分析结果进行分析,得出计算机服务器潜在异常结果,并进行预警和通知。2.根据权利要求1所述的计算机服务器集群日志监控方法,其特征在于:步骤A中,通过RHCS技术,在2台服务器上部署主监控节点的监控服务,监控服务自动在计算机服务器集群中的服务器上部署采集代理,以保证监控服务在高可用状态,主监控节点能自动扫描发现并添加集群内新增的服务器至监控列表,自动添加被监控服务器的监控项;2台服务器采用主-从服务器的工作方式:主服务器工作,从服务器处于监控准备状况;当主服务器宕机时,从服务器接管主服务器的一切工作,待主服务器恢复正常后,按使用者的设定以自动或手动方式将服务切换到主服务器上运行。3.根据权利要求2所述的计算机服务器集群日志监控方法,其特征在于:所述流数据采集框架包括N个采集代理模块、采集服务模块、数据过滤模块、动态性能平衡模块和分布式流计算模块,所述N个采集代理模块运行在N个被监控节点上,实时采集被监控节点上的海量机器码指令,所述采集服务模块运行在主监控节点上,实时采集各采集代理模块发送的机器码指令并将其发送至数据过滤模块,所述数据过滤模块运行在主监控节点上,接收采集服务模块发送的机器码指令并将进行初步过滤,并将过滤后的机器码指令发送至分布式流计算模块,所述动态性能平衡模块用于动态平衡采集代理模块与采集服务模块、采集服务模块与数据过滤模块、数据过滤模块与分布式流计算模块之间的服务性能。4.根据权利要求3所述的计算机服务器集群日志监控方法,其特征在于:步骤A中所述的采集代理模块的采集项目可添加和配置,采集项目的相关阈值可设置。5.根据权利要求1所述的计算机服务器集群日志监控方法,其特征在于:步骤B所述的实时地过滤、加工及存储具体包括:通过基于Flueme+Kafka+Strom框架的分布式流计算服务把服务器生成的机器码半结构化数据进行初步的过滤,保留用于分析的数据,再把该部分的数据翻译成可读的、有规律的结构化及半结构化数据,翻译后的数据通过HBase高性能列式数据库进行存储,结合Phoenix对外提供数据的实时读/写,HBase利用HDFS分布式文件系统做持久化数据存储,同时使用Hive提供静态结构化数据的查询,其使用类SQL语言,底层经过编译转位MapReduce程序在Hadoop上...

【专利技术属性】
技术研发人员:尤福宝汤成辉徐文渊黄云辉
申请(专利权)人:江苏神威云数据科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1