自动化运行维护监测系统技术方案

技术编号:14785793 阅读:71 留言:0更新日期:2017-03-10 23:30
本发明专利技术涉及一种用于监控目标系统的自动化运行维护监测系统,包括数据采集系统(2)、数据发布系统(3)、UI子系统(4),所述数据采集系统包括系统运行情况监测模块组(5)、业务数据监测模块组(6)、配置管理模块组(7)、系统辅助模块组(8)、数据服务模块组(9),本发明专利技术的有益效果在于,自动化运行维护监测系统是对整个目标系统的运行情况进行全方位的监测保障系统,是为有效做好目标系统维护工作、掌握系统运行情况、提供系统异常的告警信息而建设的平台。系统要能够实现全自动化的实时监控、能够实现数据的实时统计与分析,且能够清晰醒目的展示数据的变化,便于数据分析和问题改进。

【技术实现步骤摘要】

本专利技术属于计算机领域,特别涉及一种用于监控目标系统的自动化运行维护监测系统
技术介绍
目前绝大多数目标系统主要依赖于手动操作且无法实现自动化的实时监控系统,因此,全自动化的监控平台和实用的数据展示及分析界面具有很重要的意义。多数据源多平台分布式数据采集技术面临很多技术问题,首先,从目标系统各节点所有设备中采集系统运行数据,这些数据涉及到诸如CPU,内存、磁盘状态主机基本信息,也涉及到nfds、tomcat等应用状态、还涉及到各服务器、各防火墙之间的连通性,如何开发有效的数据采集技术,将分布式环境下各种信息采集并统一汇集到中心节点提供进一步分析和呈现是个难点。其次,多节点数据传输可靠性、实时性(低延迟)、安全性,比较将多个节点上采集到的数据实时汇入到中心节点,考虑在不同的网络环境下(可直连至中心节点,需要经过中间机跳转),不同的数据格式(日志型、浮点型等)、不同的汇聚频率(秒级,分钟级、小时级等),不同的传输模式(上行数据、下行数据)的背景下。第三,多业务数据分析,目标系统运行情况监测需要涉及系统运行数据、目标系统数据、系统资源使用情况数据,这些数据最终都会汇聚到中心节点,如何针对已经收到的数据进行有效的统计分析,包括按小时、天、周、月的统计报表,待监测系统的整体健康情况指标,系统各项监控指标的关联性分析等,考虑到目标系统监控系统所要分析的数据较多,如何对日益增长的数据进行有效分析给出系统的综合状态判断,并能进一步够挖掘数据的内部规律,甚至预先判断出系统可能出问题的时间点和问题方向,从被动运维转变成主动运维。
技术实现思路
为了解决上述技术问题,本专利技术提供一种自动化运行维护监测系统,包括数据采集系统、数据发布系统、UI子系统,所述数据采集系统包括系统运行情况监测模块组、业务数据监测模块组、配置管理模块组、系统辅助模块组、数据服务模块组,所述系统运行情况监测模块组包括服务器资源监测模块、应用服务监测模块、设备连通性监测模块、网速流量监测模块、系统资源监测模块、网络链路监测模块,所述业务数据监测模块组包括数据入库模块、数据查询模块、稳定度计算模块、稳定度告警模块、稳定度排名模块,所述配置管理模块组包括指标管理模块、主机管理模块、模板管理模块、行为管理模块、事件管理模块、告警配置模块,所述系统辅助模块组包括电话记录模块、发布通知模块,所述数据服务模块组包括数据管理模块、对外接口模块、统计分析模块。本专利技术的自动化运行维护监测系统,其中数据发布系统为分布式消息队列系统,所述分布式消息队列系统可将多条消息加到一个消息集合中发布,不创建单独的缓存,使用所述目标系统的页面缓存;发布者顺序发布,订阅者通常比发布者滞后时间,减少了缓存管理及垃圾收集的开销。优选的本专利技术服务器资源监测模块包括文件系统使用率监测单元、CPU使用率监测单元、主机存活时间监测单元、内存使用率监测单元、内存总量监测单元、交换分区使用率监测单元、安全日志分析监测单元、日志分析监测单元、网卡状态检查监测单元、异常登录系统事件监测单元、磁盘读写监测单元;优选的本专利技术应用服务监测模块包括监测目标系统的所有应用程序和服务,包括:nfs服务单元、tomcat服务单元、ssh服务单元、oracle服务单元、MstoreNode服务单元、IndexerServer服务单元、QuorumPeerMain服务单元;优选的本专利技术设备连通性监测模块能够对目标系统硬件设备(包括服务器、交换机)实时监控连通性,支持故障告警;对于频繁出现故障的设备,提出预警,便于预测和评估硬件及软件情况;监测目标系统防火墙上各端口状态,包括:去往各节点的端口、连接目标系统核心交换机的端口,并能支持故障告警;能够监控目标系统核心交换机上的各端口状态、数据库对象状态、异常IP连接、ASM状态、数据库备份情况等监测;本专利技术网络流量监测模块可以监控各网关服务器到加载机传输速率,将每日传输速率入库,便于日后分析统计,支持告警;本专利技术网络链路监测模块包括监测各节点目标系统到各网关服务器链路连通性。本专利技术的数据入库模块每日将前一日各节点上报的基础数据入库,以便按不同条件查询或使用;本专利技术的数据查询模块能提供按不同条件查询,并将查询结果以曲线和表格显示,且支持excel导出;查询条件包括能按节点数据;能按日、周、月、年分别查询各节点的基础数据;能查询每日数据总量;能按日、周、月、年分别查询各节点的数据总量;本专利技术的稳定度计算模块能够实现每日定时对各数据稳定度和稳定区间的计算和更新,以便判断每日上报数据是否正常;本专利技术的稳定度告警模块每日数据以曲线和表格形式展开、支持Excel导出,并根据稳定区间监控每日数据波动,低于稳定区间下限20%以上的数据则告警;本专利技术的稳定度排名模块实现对不同节点数据稳定性排名。本专利技术的系统资源监测模块,支持查看所有主机的磁盘每周各天的使用量和使用率;支持统计查看每周所有节点主机磁盘变化量最高的前几台服务器磁盘变化信息。本专利技术的告警配置模块支持针对任务定制告警目标用户、告警条件和告警方式,在满足告警条件时向选定的所有告警目标用户通过选定的告警方式及时发出告警;所述告警包括暂停告警、恢复报警、对每日上报数据超出阀值进行告警;所述告警的延迟不小于5分钟;告警方式至少支持电话通知、短信通知和Email通知三种方式;三种方式的紧急程度依次降低;电话通知是指向选定用户拨打电话,仅用于需紧急赶赴现场处理的情况;短信通知的紧急程度次之,短信内容包括必要的信息概述;Email通知紧急程度最低,邮件内容应尽量详实;告警目标用户默认是当前用户,至少应有一位告警目标用户,可根据需要额外添加;暂停告警可以防止系统批量变更或机房变迁等长时间服务无法恢复的时候频繁告警现象,暂停告警后,暂停的告警项不会显示在巡检告警栏里;恢复告警将暂停告警项恢复,进行正常告警;业务数据告警对每日上报数据超出阀值进行告警,阀值通过三个月内历史值去畸求得平均值后得出。本专利技术的电话记录模块针对各用户的来电咨询记录,方便为日后出现相似问题提供参考,包括来电时间、问题反馈、单位名称、问题点处理流程、问题反馈说明等记录,可增、删、改、查各相关记录;发布通知模块可方便值班人员之间值班事宜的沟通和了解,通知在公告栏中显示,可以增加、删除、编辑通知。本专利技术的自动化运行维护监测系统,其中UI子系统,提供实用、友好的用户界面,可以通过可视化接口进行数据查询和维护,并能按需求以周报、月报、年报的形式导出表格;包括:实时数据展示单元:要求可以动态的数据的变化曲线图,优选的是上报数据量,不同的数据类型通过不同的曲线的颜色加以区分展示在图表上,可以选择展示某一种数据类型曲线;历史数据展示单元:要求可以查看所有历史数据和选择指定日期的历史数据,默认为前一天的历史数据,展示的图表要求可以缩放历史查看范围;比较数据展示单元:要求将各节点之间相同类型的数据进行比较展示,以柱状图的形式展示出来,从而可以直观的看出各节点之间的业务数据繁忙情况;查询数据展示单元:要求针对部分节点上报数据以表格形式展示出来,可以带搜索功能,分页显示;告警数据展示单元:要求告警信息分类别在界面左下角汇总展示,有告警的时候加以颜色提醒,当点击具体告警项时,通过弹窗的方式将告警信息分组本文档来自技高网...
自动化运行维护监测系统

【技术保护点】
一种自动化运行维护监测系统(1),其特征在于,包括数据采集系统(2)、数据发布系统(3)、UI子系统(4),所述数据采集系统包括系统运行情况监测模块组(5)、业务数据监测模块组(6)、配置管理模块组(7)、系统辅助模块组(8)、数据服务模块组(9),所述系统运行情况监测模块组(5)包括服务器资源监测模块(10)、应用服务监测模块(11)、设备连通性监测模块(12)、网速流量监测模块(13)、系统资源监测模块(14)、网络链路监测模块(49),所述业务数据监测模块组(6)包括数据入库模块(15)、数据查询模块(16)、稳定度计算模块(17)、稳定度告警模块(18)、稳定度排名模块(19),所述配置管理模块组(7)包括指标管理模块(20)、主机管理模块(21)、模板管理模块(22)、行为管理模块(23)、事件管理模块(24)、告警配置模块(25),所述系统辅助模块组(8)包括电话记录模块(26)、发布通知模块(27),所述数据服务模块组(9)包括数据管理模块(28)、对外接口模块(29)、统计分析模块(30)。

【技术特征摘要】
1.一种自动化运行维护监测系统(1),其特征在于,包括数据采集系统(2)、数据发布系统(3)、UI子系统(4),所述数据采集系统包括系统运行情况监测模块组(5)、业务数据监测模块组(6)、配置管理模块组(7)、系统辅助模块组(8)、数据服务模块组(9),所述系统运行情况监测模块组(5)包括服务器资源监测模块(10)、应用服务监测模块(11)、设备连通性监测模块(12)、网速流量监测模块(13)、系统资源监测模块(14)、网络链路监测模块(49),所述业务数据监测模块组(6)包括数据入库模块(15)、数据查询模块(16)、稳定度计算模块(17)、稳定度告警模块(18)、稳定度排名模块(19),所述配置管理模块组(7)包括指标管理模块(20)、主机管理模块(21)、模板管理模块(22)、行为管理模块(23)、事件管理模块(24)、告警配置模块(25),所述系统辅助模块组(8)包括电话记录模块(26)、发布通知模块(27),所述数据服务模块组(9)包括数据管理模块(28)、对外接口模块(29)、统计分析模块(30)。2.如权利要求1所述的自动化运行维护监测系统,其特征在于,所述数据发布系统(3)为分布式消息队列系统,所述分布式消息队列系统可将多条消息加到一个消息集合中发布,不创建单独的缓存,使用所述目标系统的页面缓存;发布者顺序发布,订阅者通常比发布者滞后时间,减少了缓存管理及垃圾收集的开销。3.如权利要求2所述的自动化运行维护监测系统,其特征在于,所述服务器资源监测模块(10)包括文件系统使用率监测单元(31)、CPU使用率监测单元(32)、主机存活时间监测单元(33)、内存使用率监测单元(34)、内存总量监测单元(35)、交换分区使用率监测单元(36)、安全日志分析监测单元(37)、日志分析监测单元(38)、网卡状态检查监测单元(39)、异常登录系统事件监测单元(40)、磁盘读写监测单元(41);所述应用服务监测模块(11)包括监测目标系统的所有应用程序和服务,包括:nfs服务单元(42)、tomcat服务单元(43)、ssh服务单元(44)、oracle服务单元(45)、MstoreNode服务单元(46)、IndexerServer服务单元(47)、QuorumPeerMain服务单元(48);所述设备连通性监测模块(12)能够对目标系统硬件设备(包括服务器、交换机)实时监控连通性,支持故障告警;对于频繁出现故障的设备,提出预警,便于预测和评估硬件及软件情况;监测目标系统防火墙上各端口状态,包括:去往各节点的端口、连接目标系统核心交换机的端口,并能支持故障告警;能够监控目标系统核心交换机上的各端口状态、数据库对象状态、异常IP连接、ASM状态、数据库备份情况等监测;所述网络流量监测模块(13)可以监控各网关服务器到加载机传输速率,将每日传输速率入库,便于日后分析统计,支持告警;所述网络链路监测模块(49)包括监测各节点目标系统到各网关服务器链路连通性。4.如权利要求1所述的自动化运行维护监测系统,其特征在于,所述数据入库模块(15)每日将前一日各节点上报的基础数据入库,以便按不同条件查询或使用;所述数据查询模块(16)能提供按不同条件查询,并将查询结果以曲线和表格显示,且支持excel导出;查询条件包括能按节点数据;能按日、周、月、年分别查询各节点的基础数据;能查询每日数据总量;能按日、周、月、年分别查询各节点的数据总量;所述稳定度计算模块(17)能够实现每日定时对各数据稳定度和稳定区间的计算和更新,以便判断每日上报数据是否正常;所述稳定度告警模块(18)每日数据以曲线和表格形式展开、支持Excel导出,并根据稳定区间监控每日数据波动,低于稳定区间下限20%以上的数据则告警;所述稳定度排名模块(19)实现对不同节点数据稳定性排名。5.如权利要求1所述的自动化运行维护监测系统,其特征在于,所述系统资源监测模块(14),支持查看所有主机的磁盘每周各天的使用量和使用率;支持统计查看每周所有节点主机磁盘变化量最高的前几台服务器磁盘变化信息。6.如权利要求1所述的自动化运行维护监测系统,其特征在于,所述告警配置模块(25)支持针对任务定制告警目标用户、告警条件和告警方式,在满足告警条件时向选定的所有告警目标用户通过选定的告警方式及时发出告警;所述告警包括暂停告警、恢复报警、对每日上报数据超出阀值进行告警;所述告警的延迟不小...

【专利技术属性】
技术研发人员:李超毕慧郭承青包秀国王琦崔佳
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1