一种大型数据中心监控方法和系统技术方案

技术编号:16878502 阅读:39 留言:0更新日期:2017-12-23 15:16
本发明专利技术公开了一种大型数据中心监控方法和系统。涉及大型数据中心技术;解决了大型数据中心监控规模过大导致的监控延时、系统负载过高的问题。该方法包括:收集被监控设备的性能数据和告警数据;对所述性能数据和所述告警数据进行整合分析,生成告警。本发明专利技术提供的技术方案适用于大型数据中心监控,实现了在有效控制消耗资源量控制监控系统规模的前提下更大规模的有效监控。

A large data center monitoring method and system

The invention discloses a monitoring method and system for a large data center. It involves large data center technology, which solves the problem of monitoring delay and overloading of the system caused by the large scale of large data center monitoring. The method includes collecting the performance data and alarm data of the monitored equipment, analyzing and integrating the performance data and the alarm data to generate alarm. The technical scheme provided by the invention is suitable for monitoring large data centers, and realizes effective monitoring under the premise of effectively controlling consumption volume and controlling the scale of monitoring system.

【技术实现步骤摘要】
一种大型数据中心监控方法和系统
本专利技术涉及大型数据中心技术,尤指一种大型数据中心监控方法和系统。
技术介绍
随着互联网的飞速发展,数据中心承载着各种数据的采集、存储及分析等任务,依赖原始的主动监控的监控框架运行的数据中心,出现了监控规模不足、延时较大、监控主机系统负载过高等问题,大大影响着监控的可靠性,影响着数据中心的稳定性。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种大型数据中心监控方法和系统,由被监控设备主动上报性能数据和告警数据,解决了大型数据中心监控规模过大导致的监控延时、系统负载过高的问题,在有效控制消耗资源量控制监控系统规模的前提下,实现了更大规模的监控。为了达到本专利技术目的,本专利技术提供了一种大型数据中心监控方法,包括:收集被监控设备的性能数据和告警数据;对所述性能数据和所述告警数据进行整合分析,生成告警。优选的,收集被监控设备的性能数据和告警数据的步骤包括:接收所述被监控设备上报的性能数据和告警数据;对所述被监控设备是否存活进行轮询探测,根据探测结果生成性能数据;将所述性能数据和所述告警数据存储至数据库。优选的,收集被监控设备的性能数据和告警数据的步骤之前,还包括:确认所述被监控设备是否具有SNMPTrap功能,如果具有,则在所述被监控设备上配置SNMPTrap转发的地址为监控主机的IP地址和端口号;如果不具有,则在该被监控设备上安装代理Agent,并且将该配置转发地址为监控主机Redis的地址,启动该Agent。优选的,对所述性能数据和所述告警数据进行整合分析,生成告警的步骤包括:对比预置的告警规则和所述性能数据,在所述性能数据满足所述告警规则时,生成告警;将所述告警数据存储至告警数据库中,生成告警;整合根据所述性能数据和所述告警数据生成的告警,触发告警通知发送。优选的,告警通知发送具体通过以下方式中的任一种或任意多种:邮件、微信、短信。优选的,该方法还包括:展示生成的告警的相关信息、所述性能数据和所述告警数据。本专利技术还提供了一种大型数据中心监控系统,包括:数据收集模块,用于收集被监控设备的性能数据和告警数据;数据处理模块,用于对所述性能数据和所述告警数据进行整合分析,生成告警。优选的,所述数据收集模块包括:数据接收与转发子模块,用于接收所述被监控设备上报的性能数据和告警数据;轮询子模块,用于对所述被监控设备是否存活进行轮询探测,根据探测结果生成性能数据;数据库,用于存储所述性能数据和所述告警数据。优选的,所述数据处理模块包括:性能数据分析子模块,用于对比预置的告警规则和所述性能数据,在所述性能数据满足所述告警规则时,生成告警;告警数据分析子模块,用于将所述告警数据存储至告警数据库中,生成告警;整合通知子模块,用于整合根据所述性能数据和所述告警数据生成的告警,触发告警通知发送。优选的,该系统还包括:界面展示模块,用于展示生成的告警的相关信息、所述性能数据和所述告警数据。本专利技术提供了一种大型数据中心监控方法和系统,收集被监控设备的性能数据和告警数据,并对性能数据和告警数据进行整合分析,生成告警,解决了大型数据中心监控规模过大导致的监控延时、系统负载过高的问题,在有效控制消耗资源量控制监控系统规模的前提下,实现了更大规模的监控。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。图1为本专利技术的实施例一提供的一种大型数据中心监控系统的结构示意图;图2为本专利技术的实施例二提供的一种大型数据中心监控方法的流程示意图;图3为本专利技术的实施例三提供的一种大型数据中心监控系统的结构示意图;图4为图3中数据收集模块301的结构示意图;图5为图3中数据处理模块302的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。依赖原始的主动监控的监控框架运行的数据中心,存在监控规模不足、延时较大、监控主机系统负载过高等问题,大大影响着监控的可靠性,影响着数据中心的稳定性。为了解决上述问题,本专利技术的实施例提供了一种大型数据中心监控方法和系统,收集被监控设备的性能数据和告警数据,尤其是采用了代理(Agent)或者设备自带SNMPTRAP主动上报的被动监控方式进行监控,大大减轻了监控主机的监控压力和系统负载,监控规模也大大提高,从而保证数据中心的稳定性。首先结合附图,对本专利技术的实施例一进行说明。本专利技术实施例提供了一种大型数据中心监控系统,基于代理(Agent)或者设备自带SNMPTRAP主动上报的被动监控方式。该系统的结构如图1所示,包括:Agent模块,主动轮询模块,数据接收与转发模块,数据处理模块,数据存储数据库,告警通知发送模块,界面展示模块。Agent模块:为安装在被监控设备上的一个应用程序,该应用程序对设备的性能数据和告警数据进行采集,采集到的数据发送到监控主机的Redis数据库中或者专门的Redis数据库主机上。主动轮询模块:该模块主要是确认被监控主机是否存活,使用简单的命令ping、IPmIPing进行测试和测试Agent进行是否正在运行,并将测试的结果进行上报到Redis数据库中。数据接收与转发模块:该模块是在使用SNMPTrap的监控方式的时候,对SNMPTrap的告警数据进行接收之后,转发至Redis数据库。数据处理模块:该模块主要是消费上报的性能数据和告警数据、告警整合。对于性能数据,首先存储到历史性能数据库和实时监控数据库(例如RRD数据库、elasticsearch)、其次核对该性能是否设置了告警规则,如果设置了告警规则(例如cpu利用率超过80%阈值进行告警),则进行阈值比较是否产生告警,如果没有设置,则跳过该步骤;对于告警数据处理,直接存储到实时告警数据库;告警整合是将性能产生的告警和告警数据中的告警进行整合,根据告警的信息产生资源的告警状态进行告警,触发告警通知发送。数据存储数据库:主要包含对实时监控数据进行存储的数据库和对历史性能数据进行存储的数据库。告警通知发送模块:对资源产生的告警,通过邮件、短信、微信平台推送给运维人员,以便运维人员进行及时的维护。界面展示模块:对于告警、实时性能、历史数据等的展示通过查询数据库获取。使用上述系统完成对大型数据中心监控的流程如下:1、确认被监控设备是否具有SNMPTrap功能,如果具有,则在该设备上配置SNMPTrap转发的地址为监控主机的IP地址和端口号;如果不具有,则在该被监控设备上安装Agent,并且将该配置转发地址为监控主机Redis的地址,启动该agent。2、如果采用的是SNMPTrap监控,则对SNMPTrap的告警本文档来自技高网...
一种大型数据中心监控方法和系统

【技术保护点】
一种大型数据中心监控方法,其特征在于,包括:收集被监控设备的性能数据和告警数据;对所述性能数据和所述告警数据进行整合分析,生成告警。

【技术特征摘要】
1.一种大型数据中心监控方法,其特征在于,包括:收集被监控设备的性能数据和告警数据;对所述性能数据和所述告警数据进行整合分析,生成告警。2.根据权利要求1所述的大型数据中心监控方法,其特征在于,收集被监控设备的性能数据和告警数据的步骤包括:接收所述被监控设备上报的性能数据和告警数据;对所述被监控设备是否存活进行轮询探测,根据探测结果生成性能数据;将所述性能数据和所述告警数据存储至数据库。3.根据权利要求2所述的大型数据中心监控方法,其特征在于,收集被监控设备的性能数据和告警数据的步骤之前,还包括:确认所述被监控设备是否具有SNMPTrap功能,如果具有,则在所述被监控设备上配置SNMPTrap转发的地址为监控主机的IP地址和端口号;如果不具有,则在该被监控设备上安装代理Agent,并且将该配置转发地址为监控主机Redis的地址,启动该Agent。4.根据权利要求1所述的大型数据中心监控方法,其特征在于,对所述性能数据和所述告警数据进行整合分析,生成告警的步骤包括:对比预置的告警规则和所述性能数据,在所述性能数据满足所述告警规则时,生成告警;将所述告警数据存储至告警数据库中,生成告警;整合根据所述性能数据和所述告警数据生成的告警,触发告警通知发送。5.根据权利要求4所述的大型数据中心监控方法,其特征在于,...

【专利技术属性】
技术研发人员:段谊海刘成平李锋
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1