一种IT软硬件运行状态监控系统技术方案

技术编号:14636698 阅读:114 留言:0更新日期:2017-02-15 10:50
本发明专利技术公开了一种IT软硬件运行状态监控系统,包括规则引擎:维护系统所有的配置数据,包括被采集网元的配置数据、计算引擎评分时所需的规则数据、展示引擎显示数据时业务与平台网元的对应关系以及网元与指标的对应关系;采集引擎:通过规则引擎的配置数据采集被监控网元的运行状态数据;计算引擎:根据网元多个指标计算出单个网元的健康度得分,并且生成相关事件;展示引擎:按照规则引擎中配置的业务域关系对外显示。本发明专利技术根据网元指标的监控与关联计算出该网元的健康运行情况,以快速响应监控需求的变化;同时加入了统一视图与监控域,将同一业务的相关的监控网元集成到同一视窗中,以提高故障排除的效率和提升用户的满意度。

【技术实现步骤摘要】

本专利技术涉及一种IT运维监控系统,尤其涉及一种IT软硬件运行状态监控系统
技术介绍
随着企业信息化的不断发展和深入,IT监控告警系统的建设,综合了多种信息设备、多层次业务的监控。随着业务的发展,进入监控系统的告警信息日趋庞大且复杂。为及时发现系统故障、识别潜在风险及安全隐患,企业内部通常设定专门的运维部门和运维人员监管企业的IT系统,维护企业IT系统正常、稳定运行,保障企业业务正常开展和运营。传统IT监控系统的监控方法通常为:信息技术部门提出系统运行目标,运维部门将系统运行目标转化为系统监控指标,并在IT监控系统中通过定义监控指标、设定监控数据源、配置监控校验规则、部署监控调度作业实现系统监控,其中监控校验规则配置采用最小值、最大值的值域配置或采用百分比的波动配置等方式。当系统的某个部件运行状况超出预设阈值时,监控系统识别告警并发送相关的告警通知。这种告警识别机制通常无法做到趋势的预警以及告警间的相互关联。现有技术具有以下缺点:一、传统监控系统通常以告警为驱动,当有告警时才会介入处理,并且需要人为登录到系统中,根据告警相关信息查询系统情况并处理,而且判断与确认的时间会增加告警处理时长。二、传统监控系统只单独监控各网元各个指标的告警信息,没有对同一网元引起的多条相关告警做关联分析。这种监控技术降低了多维告警的质量,弱化了故障定位能力,增加了故障分析难度。三、传统的监控系统在监控成百上千个网元时,只有当告警出现时才会被动接收告警,而不能通过某种界面或者工具简单直观的看到被监控网元的运行情况。由上可见,以上设计缺陷使告警信息较难管理,告警事件较难追述,在处理告警时对问题与故障根源分析时间花费较长,不能及时响应与解决故障,从而导致用户体验不佳,同时在多网元多告警指标监控时,无法做到关联,同时也没有统一、简洁的视图纵观整个系统运行现状。
技术实现思路
本专利技术所要解决的技术问题是提供一种IT软硬件运行状态监控系统,能够灵活调整监控规则,并根据配置引擎中的规则自动关联告警关系;不仅能根据业务规则精准定位故障根源,并能预处理客户非感知故障而避免感知故障发生,使IT监控系统更好地适应用户的不同需求。本专利技术为解决上述技术问题而采用的技术方案是提供一种IT软硬件运行状态监控系统,包括规则引擎:维护系统所有的配置数据,包括被采集网元的配置数据、计算引擎评分时所需的规则数据、展示引擎显示数据时业务与平台网元的对应关系以及网元与指标的对应关系;采集引擎:通过规则引擎的配置数据采集被监控网元的运行状态数据;计算引擎:根据网元多个指标计算出单个网元的健康度得分,并且生成相关事件;展示引擎:按照规则引擎中配置的业务域关系对外显示。上述的IT软硬件运行状态监控系统,其中,所述规则引擎通过在前台页面增加、修改、删除规则维护系统所有的配置数据,并且保存计算引擎所产生的动态评分规则用以下次评分时作为参照。上述的IT软硬件运行状态监控系统,其中,所述采集引擎包括采集模块和规整模块,所述采集模块从规则引擎中读取被监控网元的配置信息与所需采集的指标信息,根据配置规则周期性地从被监控网元侧采集运行数据;所述规整模块将采集模块所采集的数据合并到同一个时间版本内,并且对所采集的数据进行有效性检查,如果存在数据未采集到则通知采集模块再次发起采集,在预设次数内未采集到有效数据,则采用默认值合并,保证数据时间版本的统一。上述的IT软硬件运行状态监控系统,其中,所述采集引擎首先读取配置引擎中被监控网元列表,获取有效被监控网元类型ID与网元地址、网元数据库连接串,通过多线程方式对被采集网元进行批量处理;每个采集线程根据被采集网元ID与网元类型ID读取规则引擎中的预设指标,所述预设指标包括指标ID、指标名称、指标说明和采集周期;每个采集线程判断是否满足采集周期,如是则连接被采集网元进行相关数据的采集,通过规整模块将数据按照时间标签整理完毕后发送给消息模块并入库;所述消息模块提供一个数据流的通道,并供订阅相关消息的模块读取消费。上述的IT软硬件运行状态监控系统,其中,所述计算引擎包括:评分模块:将规整模块整理后的网元运行数据与规则引擎中的配置进行匹配,并按100分制给每个网元的运行健康度打分;事件模块:根据配置引擎中的规则,对评分模块产生的分数匹配生成事件,当低于80分时产生预警事件,当低于60分时产生告警事件;下钻模块:根据事件模块产生的事件匹配规则引擎中配置的规则对相关指标进行下钻数据抓取,下钻所要采集的数据以及格式均通过场景化设计产生,当未有事件产生时,每个指标周期性会进行一次常规下钻,用以与异常事件进行对比分析;诊断模块:根据下钻模块中采集的信息与正常时间点采集的下钻数据进行对比,自动分析诊断引起指标事件产生的原因;自动处理模块:当诊断模块确认事件原因后通知自动处理模块,所述自动处理模块根据事件原因匹配调用引擎中预先配置的相关自动处理脚本。上述的IT软硬件运行状态监控系统,其中,对于系统性能问题引起的事件,所述诊断模块查找得出需要被KILL的进程列表或者重启操作命令,所述自动处理模块通过调用KILL或者重启命令解决性能问题;对于主机文件系统和数据表空间异常引起的事件,所述自动处理模块通过调用预设方案进行恢复,所述预设方案为根据被监控网元与指标名称以及系统运行情况设置的可恢复异常情况的脚本或者命令。上述的IT软硬件运行状态监控系统,其中,所述展示引擎包括:业务域展示模块:展示业务网元和平台网元,每个业务网元设置有需要展示的指标,所有的业务网元均在同一块区域中展示,并通过不同颜色突出显示的策略进行滚动展示;所述平台网元按照设备类型划分为主机、存储、数据库、网路和负载均衡,同时平台网元展示还包含了该业务域所包含的所有网元所触发的事件,所有事件按照事件发生先后进行排序;当业务网元展示区域选择事件范围和时间点后,默认平台网元数据展示为选中时间点的镜像数据;平台域展示模块:将平台网元按照设备类型进行展示,每一种设备类型均包含了所有被监控网元下同类型的网元组件,并可在页面上搜索网元名称找到被监控网元;网元展示模块:展示单个网元的运行情况,根据网元类型定义多种指标反映网元的运行状态,显示各指标项得分及扣分情况,同时根据扣分情况生成相关事件;下钻展示模块:通过业务域展示模块中的事件列表或者网元展示模块中事件列表进入,主要展示计算引擎中下钻模块所采集的数据与诊断模块所分析的结论,通过场景化的数据采集与展示,在页面上直观显示系统存在的问题、问题导致的原因、问题时间点与之前时间点运行状态的对比,以及系统故障的定位方向。本专利技术对比现有技术有如下的有益效果:本专利技术提供的IT软硬件运行状态监控系统,采用基于健康度的监控系统分析方法,以客户的业务需求、网元为管理对象,根据对网元指标的监控与关联计算出该网元的健康运行情况,并将告警规则引擎从监控逻辑中解耦出来,使监控人员也能参与监控规则的修改和管理,实现前台动态修改监控规则,以快速响应监控需求的变化;同时加入了统一视图与监控域,将同一业务的相关的监控网元集成到同一视窗中,以提高故障排除的效率和提升用户的满意度。附图说明图1为本专利技术IT软硬件运行状态监控系统架构示意图;图2为本专利技术IT软硬件运行状态监控流程图。具体实施方式下面结合附图本文档来自技高网
...
一种IT软硬件运行状态监控系统

【技术保护点】
一种IT软硬件运行状态监控系统,其特征在于,包括:规则引擎:维护系统所有的配置数据,包括被采集网元的配置数据、计算引擎评分时所需的规则数据、展示引擎显示数据时业务与平台网元的对应关系以及网元与指标的对应关系;采集引擎:通过规则引擎的配置数据采集被监控网元的运行状态数据;计算引擎:根据网元多个指标计算出单个网元的健康度得分,并且生成相关事件;展示引擎:按照规则引擎中配置的业务域关系对外显示。

【技术特征摘要】
1.一种IT软硬件运行状态监控系统,其特征在于,包括:规则引擎:维护系统所有的配置数据,包括被采集网元的配置数据、计算引擎评分时所需的规则数据、展示引擎显示数据时业务与平台网元的对应关系以及网元与指标的对应关系;采集引擎:通过规则引擎的配置数据采集被监控网元的运行状态数据;计算引擎:根据网元多个指标计算出单个网元的健康度得分,并且生成相关事件;展示引擎:按照规则引擎中配置的业务域关系对外显示。2.如权利要求1所述的IT软硬件运行状态监控系统,其特征在于,所述规则引擎通过在前台页面增加、修改、删除规则维护系统所有的配置数据,并且保存计算引擎所产生的动态评分规则用以下次评分时作为参照。3.如权利要求1所述的IT软硬件运行状态监控系统,其特征在于,所述采集引擎包括采集模块和规整模块,所述采集模块从规则引擎中读取被监控网元的配置信息与所需采集的指标信息,根据配置规则周期性地从被监控网元侧采集运行数据;所述规整模块将采集模块所采集的数据合并到同一个时间版本内,并且对所采集的数据进行有效性检查,如果存在数据未采集到则通知采集模块再次发起采集,在预设次数内未采集到有效数据,则采用默认值合并,保证数据时间版本的统一。4.如权利要求3所述的IT软硬件运行状态监控系统,其特征在于,所述采集引擎首先读取配置引擎中被监控网元列表,获取有效被监控网元类型ID与网元地址、网元数据库连接串,通过多线程方式对被采集网元进行批量处理;每个采集线程根据被采集网元ID与网元类型ID读取规则引擎中的预设指标,所述预设指标包括指标ID、指标名称、指标说明和采集周期;每个采集线程判断是否满足采集周期,如是则连接被采集网元进行相关数据的采集,通过规整模块将数据按照时间标签整理完毕后发送给消息模块并入库;所述消息模块提供一个数据流的通道,并供订阅相关消息的模块读取消费。5.如权利要求1所述的IT软硬件运行状态监控系统,其特征在于,所述计算引擎包括:评分模块:将规整模块整理后的网元运行数据与规则引擎中的配置进行匹配,并按100分制给每个网元的运行健康度打分;事件模块:根据配置引擎中的规则,对评分模块产生的分数匹配生成事件,当低于80分时产生预警事件,当低于60分时产生告警事件;下钻...

【专利技术属性】
技术研发人员:程永新宋辉陈波
申请(专利权)人:上海新炬网络信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1