【技术实现步骤摘要】
本专利技术属于计算机领域,特别涉及一种用于监控目标系统的自动化运行维护监测系统。
技术介绍
目前绝大多数目标系统主要依赖于手动操作且无法实现自动化的实时监控系统,因此,全自动化的监控平台和实用的数据展示及分析界面具有很重要的意义。多数据源多平台分布式数据采集技术面临很多技术问题,首先,从目标系统各节点所有设备中采集系统运行数据,这些数据涉及到诸如CPU,内存、磁盘状态主机基本信息,也涉及到nfds、tomcat等应用状态、还涉及到各服务器、各防火墙之间的连通性,如何开发有效的数据采集技术,将分布式环境下各种信息采集并统一汇集到中心节点提供进一步分析和呈现是个难点。其次,多节点数据传输可靠性、实时性(低延迟)、安全性,比较将多个节点上采集到的数据实时汇入到中心节点,考虑在不同的网络环境下(可直连至中心节点,需要经过中间机跳转),不同的数据格式(日志型、浮点型等)、不同的汇聚频率(秒级,分钟级、小时级等),不同的传输模式(上行数据、下行数据)的背景下。第三,多业务数据分析,目标系统运行情况监测需要涉及系统运行数据、目标系统数据、系统资源使用情况数据,这些数据最终都会汇聚到中心节点,如何针对已经收到的数据进行有效的统计分析,包括按小时、天、周、月的统计报表,待监测系统的整体健康情况指标,系统各项监控指标的关联性分析等,考虑到目标系统监控系统所要分析的数据较多,如何对日益增长的数据进行有效分析给出系统的综合状态判断,并能进一步够挖掘数据的内部规律,甚至预先判断出系统可能出问题的时间点和问题方向,从被动运维转变成主动运维。
技术实现思路
为了解决上述技术问题,本专利技 ...
【技术保护点】
一种自动化运行维护监测系统(1),其特征在于,包括数据采集系统(2)、数据发布系统(3)、UI子系统(4),所述数据采集系统包括系统运行情况监测模块组(5)、业务数据监测模块组(6)、配置管理模块组(7)、系统辅助模块组(8)、数据服务模块组(9),所述系统运行情况监测模块组(5)包括服务器资源监测模块(10)、应用服务监测模块(11)、设备连通性监测模块(12)、网速流量监测模块(13)、系统资源监测模块(14)、网络链路监测模块(49),所述业务数据监测模块组(6)包括数据入库模块(15)、数据查询模块(16)、稳定度计算模块(17)、稳定度告警模块(18)、稳定度排名模块(19),所述配置管理模块组(7)包括指标管理模块(20)、主机管理模块(21)、模板管理模块(22)、行为管理模块(23)、事件管理模块(24)、告警配置模块(25),所述系统辅助模块组(8)包括电话记录模块(26)、发布通知模块(27),所述数据服务模块组(9)包括数据管理模块(28)、对外接口模块(29)、统计分析模块(30)。
【技术特征摘要】
1.一种自动化运行维护监测系统(1),其特征在于,包括数据采集系统(2)、数据发布系统(3)、UI子系统(4),所述数据采集系统包括系统运行情况监测模块组(5)、业务数据监测模块组(6)、配置管理模块组(7)、系统辅助模块组(8)、数据服务模块组(9),所述系统运行情况监测模块组(5)包括服务器资源监测模块(10)、应用服务监测模块(11)、设备连通性监测模块(12)、网速流量监测模块(13)、系统资源监测模块(14)、网络链路监测模块(49),所述业务数据监测模块组(6)包括数据入库模块(15)、数据查询模块(16)、稳定度计算模块(17)、稳定度告警模块(18)、稳定度排名模块(19),所述配置管理模块组(7)包括指标管理模块(20)、主机管理模块(21)、模板管理模块(22)、行为管理模块(23)、事件管理模块(24)、告警配置模块(25),所述系统辅助模块组(8)包括电话记录模块(26)、发布通知模块(27),所述数据服务模块组(9)包括数据管理模块(28)、对外接口模块(29)、统计分析模块(30)。2.如权利要求1所述的自动化运行维护监测系统,其特征在于,所述数据发布系统(3)为分布式消息队列系统,所述分布式消息队列系统可将多条消息加到一个消息集合中发布,不创建单独的缓存,使用所述目标系统的页面缓存;发布者顺序发布,订阅者通常比发布者滞后时间,减少了缓存管理及垃圾收集的开销。3.如权利要求2所述的自动化运行维护监测系统,其特征在于,所述服务器资源监测模块(10)包括文件系统使用率监测单元(31)、CPU使用率监测单元(32)、主机存活时间监测单元(33)、内存使用率监测单元(34)、内存总量监测单元(35)、交换分区使用率监测单元(36)、安全日志分析监测单元(37)、日志分析监测单元(38)、网卡状态检查监测单元(39)、异常登录系统事件监测单元(40)、磁盘读写监测单元(41);所述应用服务监测模块(11)包括监测目标系统的所有应用程序和服务,包括:nfs服务单元(42)、tomcat服务单元(43)、ssh服务单元(44)、oracle服务单元(45)、MstoreNode服务单元(46)、IndexerServer服务单元(47)、QuorumPeerMain服务单元(48);所述设备连通性监测模块(12)能够对目标系统硬件设备(包括服务器、交换机)实时监控连通性,支持故障告警;对于频繁出现故障的设备,提出预警,便于预测和评估硬件及软件情况;监测目标系统防火墙上各端口状态,包括:去往各节点的端口、连接目标系统核心交换机的端口,并能支持故障告警;能够监控目标系统核心交换机上的各端口状态、数据库对象状态、异常IP连接、ASM状态、数据库备份情况等监测;所述网络流量监测模块(13)可以监控各网关服务器到加载机传输速率,将每日传输速率入库,便于日后分析统计,支持告警;所述网络链路监测模块(49)包括监测各节点目标系统到各网关服务器链路连通性。4.如权利要求1所述的自动化运行维护监测系统,其特征在于,所述数据入库模块(15)每日将前一日各节点上报的基础数据入库,以便按不同条件查询或使用;所述数据查询模块(16)能提供按不同条件查询,并将查询结果以曲线和表格显示,且支持excel导出;查询条件包括能按节点数据;能按日、周、月、年分别查询各节点的基础数据;能查询每日数据总量;能按日、周、月、年分别查询各节点的数据总量;所述稳定度计算模块(17)能够实现每日定时对各数据稳定度和稳定区间的计算和更新,以便判断每日上报数据是否正常;所述稳定度告警模块(18)每日数据以曲线和表格形式展开、支持Excel导出,并根据稳定区间监控每日数据波动,低于稳定区间下限20%以上的数据则告警;所述稳定度排名模块(19)实现对不同节点数据稳定性排名。5.如权利要求1所述的自动化运行维护监测系统,其特征在于,所述系统资源监测模块(14),支持查看所有主机的磁盘每周各天的使用量和使用率;支持统计查看每周所有节点主机磁盘变化量最高的前几台服务器磁盘变化信息。6.如权利要求1所述的自动化运行维护监测系统,其特征在于,所述告警配置模块(25)支持针对任务定制告警目标用户、告警条件和告警方式,在满足告警条件时向选定的所有告警目标用户通过选定的告警方式及时发出告警;所述告警包括暂停告警、恢复报警、对每日上报数据超出阀值进行告警;所述告警的延迟不小...
【专利技术属性】
技术研发人员:李超,毕慧,郭承青,包秀国,王琦,崔佳,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。