一种云计算环境下的设备检测及故障预警系统及方法技术方案

技术编号:16837225 阅读:37 留言:0更新日期:2017-12-19 19:48
本发明专利技术公开了一种云计算环境下的设备检测及故障预警系统及方法,系统包括:实时监控模块、监控信息呈现模块、故障预警模块和告警模块。方法包括以下步骤:步骤1,实时监控:进行实时信息采集,并进行汇总和展现;步骤2,故障预警分析:对采集的信息进行故障预警分析;步骤3,告警机制触发:对预警信息进行分类处理。本发明专利技术可以根据云计算数据中心的设备类型、数量、支持协议自主可控的选择检测的指标、适应不同的监控方式、定制报警的触发条件、大规模的扩展监控设备数量等,在统一的系统中集中的收集、监控、报警、故障定位,有效提高了运维的效率。

A system and method for equipment detection and fault warning in a cloud computing environment

The invention discloses a device detection and fault pre-warning system and method in a cloud computing environment, which comprises a real-time monitoring module, a monitoring information presentation module, a fault warning module and an alarm module. The method includes the following steps: Step 1, real-time monitoring: real-time information collection, collection and display; step 2, fault early warning analysis: early warning and analysis of the collected information; step 3, alarm mechanism trigger: classify the early warning information. The invention can be calculated based on cloud data center equipment type and quantity, support protocol independent controllable detection indicators, monitoring methods, adapt to different customized alarm trigger conditions, such as the number of large-scale expansion monitoring equipment, focusing on the unified system of collecting, monitoring, alarm, fault location, effectively improve the operation efficiency.

【技术实现步骤摘要】
一种云计算环境下的设备检测及故障预警系统及方法
本专利技术涉及一种云计算环境下的设备检测及故障预警系统及方法,属于电力系统云数据处理

技术介绍
随着云计算的迅速发展,能源行业信息化在从传统的IT逐步转向云计算时代。在传统IT数据中心中,各类IT基础设施的检测与故障预警全部是独立的,不同的厂商只能够监控各自的产品,无法对整个基础架构层进行快速、统一、有效的检测。在云计算数据中心中,所有的基础设施资源以服务的方式提供给最终的用户者,即IaaS(InfrastructureasaService,基础设施即服务),用户可以方便的获取需要的计算、存储、网络资源。但对于运维者来说,如何对云平台下的异构的硬件设备进行统一的检测、快速的定位故障,对实现高效化、精细化运维具有重大意义。目前,市场主流的IT设备有通用的,但也有专用的,主要分为服务器类、存储类、网络类、安全类、基础设施类,在各自的领域都有专门的设备检测及故障预警系统,但没有一个兼容不同类型设备的统一平台,造成了如下问题:(1)监控信息孤岛,运维效率低下。在云计算的环境,传统的监控和报警分散在不同的平台中,管理员需要同时在多个平台间切换运维,当有突发故障发生时,需要人工的按照物理拓朴逐个环节逐个界面进行紧急排查,在时效性、准确性上都无法保证,对故障的及时定位和预警造成很大影响。(2)无法同时兼容各类的检测机制,监控不全面。经过30多年IT的发展,针对设备的监控、检测、故障定位技术不停的发展,出现了很多种不同的监控机制、监控协议等,比如SNMP(SimpleNetworkManagementProtocol,简单网络管理协议)、IPMI(IntelligentPlatformManagementInterface,智能平台管理接口)、Agent(代理程序)等等,而现有的各类监控机制,每一类只能支持其中的1~2种协议,无法全面地对整个数据中心进行统一监控,存在监控的死角,当故障点出现在监控死角时,将严重影响故障处置。(3)监控平台封闭,监控和预警管理简单。无法灵活设置定制化检测指标、报警阀值、报警方式等。传统的监控报警平台都是由各设备厂商自行研发,因为涉及到商业竞争,无法兼容其他厂商的产品,也未提供定制化的接口。在云计算时代下,云平台更像是一个生态系统,承载了生态圈内的各种设备和应用,这些设备的监控指标、阀值、展示方式差异大,如何通过一个平台收集不同类型的指标,定制不同的展示方式等问题始终未能解决。现有的监控平台能够支持在线的设备数量有限,很难满足大于1000台设备时的实时性要求,只能通过增加新的平台来实现,极大增加了运维的成本。综上所述,现有技术无法做到对云平台下的异构的硬件设备进行有效地的统一检测和快速故障定位,导致其运维效率低。
技术实现思路
针对现有技术的不足,本专利技术提出了一种云计算环境下的设备检测及故障预警系统及方法,其能够对云平台下的异构的硬件设备进行统一的检测和快速的故障定位,有效提高运维效率。本专利技术解决其技术问题采取的技术方案是:本专利技术实施例提供的一种云计算环境下设备检测及故障预警的系统,它包括:实时监控模块,用以通过接口方式兼容不同种类的主动和被动采集方式,对被监控的主机、网络、服务、系统事件进行捕捉,并进一步对采集到的监控项进行汇总;监控信息呈现模块,用以将实时监控模块传递过来的数据信息进行呈现,以实现对云计算环境运行状态的实时全景状态展现;故障预警模块,用以基于实时采集模块传递过来的数据进行分析监测,将结果与管理人员定义的阈值进行比对,当超过阈值时触发报警信息;告警模块,用以接收来自故障预警模块的预警事件,通过日志保存相关的故障告警信息,并及时做出告警呈现。作为本实施例一种可能的实现方式,所述实时监控模块包括:监控采集模块,用以采集云计算环境中主机、网络、服务和系统事件信息;采集汇总模块,用以将采集到的各种数据信息进行汇总。作为本实施例一种可能的实现方式,所述采集汇总模块包括直通采集汇总模块和代理采集汇总模块,所述直通采集汇总模块用以将收集的被监控设备数据直接写入本系统的Server服务器端,所述代理采集汇总模块用以将收集的被监控设备数据通过Proxy代理传递给Server服务器端。作为本实施例一种可能的实现方式,所述故障预警模块包括触发器,所述触发器用以评估监控对象监控项的数据是否在合理范围,即阈值,监控到其数据大于阈值时,触发器状态将从“OK”转变为“Problem”,当数据量再次回归到合理范围时,其状态将从“Problem”转换为“OK”。作为本实施例一种可能的实现方式,所述系统还包括Mysql关型数据库模块,用以存储日志。本专利技术实施例提供的一种云计算环境下设备检测及故障预警的方法,它包括以下步骤:步骤1,实时监控:进行实时信息采集,并进行汇总和展现;步骤2,故障预警分析:对采集的信息进行故障预警分析;步骤3,告警机制触发:对预警信息进行分类处理。作为本实施例一种可能的实现方式,所述步骤1的具体过程包括以下步骤:步骤11,监控模块的Server服务器端实时通过不同采集方式通信对云计算环境监测信息进行采集,所述的不同采集方式包括(1)Agent主动方式,由Agent通过获取ACTIVEITEMS(活动项目)列表”和“提交数据两者方式主动向Server服务器端汇报数据;获取ACTIVEITEMS列表的过程为:Agent打开TCP连接,请求items检测列表,Server服务器端返回items列表,Agent处理响应,关闭TCP连接,Agent开始收集数据;提交数据的过程为:Agent建立TCP连接,Agent提交items列表收集的数据,Server服务器端处理数据并返回响应状态,关闭TCP连接;(2)Agent被动检测过程,由Server服务器端打开一个TCP连接,Server服务器端发送请求agent.ping\n,Agent接收到请求并且响应<DATALEN><1>(标头、数据长度),Server服务器端处理接收到的数据,关闭TCP连接;(3)简单检查方式过程,由Server服务器端执行预先定义的脚本和命令方式检测设备的IP、端口,Server服务器端助理接收到的执行结果返回值;(4)SNMP方式,通过SNMP协议收集硬件型号、传感器信息、系统状态、系统报警、登录信息、各种级别的trap;(5)ODBC方式,对于支持ODBC的数据库,获取数据库的实例名、数据库引擎内存使用情况和连接数信息;(6)IPMI方式,通过和服务器建立IPMI连接,以IPMI协议提供其所收集的信息,包括CPU型号数量、内存大小数量、温度、转速和系统类型版本信息;(7)SSH/TelnetAgent方式,这种方式通过在Server服务器端保存被监控设备的密码或者密钥来实现;(8)JMX(JavaManagementExtensions,Java管理扩展)Agent方式,针对类似Tomcat的中间件可以使用JMXAgent收集JavaVM实例的状态信息;步骤12,采集到的信息通过两种方式传递和汇总:(1)如果采用Agent-Server模式,将直接传递到Server服务器端;(2)如果是Agent-Proxy-Server架本文档来自技高网
...
一种云计算环境下的设备检测及故障预警系统及方法

【技术保护点】
一种云计算环境下设备检测及故障预警的系统,其特征是,包括:实时监控模块,用以通过接口方式兼容不同种类的主动和被动采集方式,对被监控的主机、网络、服务、系统事件进行捕捉,并进一步对采集到的监控项进行汇总;监控信息呈现模块,用以将实时监控模块传递过来的数据信息进行呈现,以实现对云计算环境运行状态的实时全景状态展现;故障预警模块,用以基于实时采集模块传递过来的数据进行分析监测,将结果与管理人员定义的阈值进行比对,当超过阈值时触发报警信息;告警模块,用以接收来自故障预警模块的预警事件,通过日志保存相关的故障告警信息,并及时做出告警呈现。

【技术特征摘要】
1.一种云计算环境下设备检测及故障预警的系统,其特征是,包括:实时监控模块,用以通过接口方式兼容不同种类的主动和被动采集方式,对被监控的主机、网络、服务、系统事件进行捕捉,并进一步对采集到的监控项进行汇总;监控信息呈现模块,用以将实时监控模块传递过来的数据信息进行呈现,以实现对云计算环境运行状态的实时全景状态展现;故障预警模块,用以基于实时采集模块传递过来的数据进行分析监测,将结果与管理人员定义的阈值进行比对,当超过阈值时触发报警信息;告警模块,用以接收来自故障预警模块的预警事件,通过日志保存相关的故障告警信息,并及时做出告警呈现。2.如权利要求1所述的一种云计算环境下设备检测及故障预警的系统,其特征是,所述实时监控模块包括:监控采集模块,用以采集云计算环境中主机、网络、服务和系统事件信息;采集汇总模块,用以将采集到的各种数据信息进行汇总。3.如权利要求2所述的一种云计算环境下设备检测及故障预警的系统,其特征是,所述采集汇总模块包括直通采集汇总模块和代理采集汇总模块,所述直通采集汇总模块用以将收集的被监控设备数据直接写入本系统的Server服务器端,所述代理采集汇总模块用以将收集的被监控设备数据通过Proxy代理传递给Server服务器端。4.如权利要求1所述的一种云计算环境下设备检测及故障预警的系统,其特征是,所述故障预警模块包括触发器,所述触发器用以评估监控对象监控项的数据是否在合理范围,即阈值,监控到其数据大于阈值时,触发器状态将从“OK”转变为“Problem”,当数据量再次回归到合理范围时,其状态将从“Problem”转换为“OK”。5.如权利要求1至4任意一项所述的一种云计算环境下设备检测及故障预警的系统,其特征是,还包括Mysql关型数据库模块,用以存储日志。6.一种云计算环境下设备检测及故障预警的方法,其特征是,包括以下步骤:步骤1,实时监控:进行实时信息采集,并进行汇总和展现;步骤2,故障预警分析:对采集的信息进行故障预警分析;步骤3,告警机制触发:对预警信息进行分类处理。7.如权利要求6所述的一种云计算环境下设备检测及故障预警的方法,其特征是,所述步骤1的具体过程包括以下步骤:步骤11,监控模块的Server服务器端实时通过不同采集方式通信对云计算环境监测信息进行采集,所述的不同采集方式包括(1)Agent主动方式,由Agent通过获取ACTIVEITEMS列表”和“提交数据两者方式主动向Server服务器端汇报数据;获取ACTIVEITEMS列表的过程为:Agent打开TCP连接,请求items检测列表,Server服务器端返回items列表,Agent处理响应,关闭TCP连接,Agent开始收集数据;提交数据的过程为:Agent建立TCP连接,Agent提交items列表收集的数据,Server服务器端处理数据并返回响应状态,关闭TCP连接;(2)Agent被动检测过程,由Server服务器端打开一个TCP连接,Server服务器端发送请求agent.ping\n,Agent接收到请求并且响应<DATALEN><1>,Server服务器端处理接收到的数据,关闭TCP连接;(3)简单检查方式过程,由Server服务器端执行预先定义的脚本和命令方式检测设备的IP、端口,Server服务器端助理接收到的执行结果返回值;(4)SNMP方式,通过SNMP协议收...

【专利技术属性】
技术研发人员:王赛张丞王丞远张宾徐浩徐伟华刘范范张悦李明曲延盛
申请(专利权)人:国网山东省电力公司信息通信公司国家电网公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1