一种运维自动化系统及方法技术方案

技术编号:12863682 阅读:117 留言:0更新日期:2016-02-13 12:06
本发明专利技术公开了一种运维自动化系统及方法,它包括数据采集模块:用于通过网管协议或者日志文件获取运维系统中各个被监控单元的关键性能指标和运行状态;预处理与存储模块:对数据采集模块采集得到的数据进行预处理工作和分类存储;预测模块:根据预处理与存储模块处理之后的数据进行预测,包括CPU负载预测和磁盘负载预测;算法评价模块:建立预测模块的预测算法的评价标准,将实际值与预测算法的预测值进行对比,建立自学习过程;运维监控管理模块:负责和运维管理人员按进行交互。本发明专利技术建立负载预测机制与算法预测模型,完成针对CPU、内存、磁盘等资源使用情况的预测,结合负载预测结果,分析告警信息给出相关辅助决策,使用脚本、API接口等方式实现资源扩容、故障处理。

【技术实现步骤摘要】

本专利技术设及一种监控分析系统,尤其是设及一种信息系统运维自动化系统及方 法。
技术介绍
现有技术目前对各信息系统及网络情况有告警监控,集团信息系统主要通过信息 运维综合监管平台(IM巧监控告警,服务器主机通过主机监控系统进行监控告警,数据中 屯、机房环境通过环控系统进行监控告警,网络通过告警系统监控告警,SAP业务系统通过 OCC进行监控告警,但总体各监控系统还比较分散,未进行集成整合,同时也缺乏自动化的 故障分析定位,故障分析和形成知识库和自定义的数据分析模型,实现对隐患、性能瓶颈和 可能事件的预警。同时,集团内服务器集群规模大、结构复杂,服务器负载随时间变化,并且 存储数据量随时间而积累,一旦服务器某些节点负载过重或存储空间溢出,会为整个电力 系统造成巨大损失。 根据运维业务现状来看,目前服务器、存储、数据库等运维不仅耗费大量人力,而 且运维效率底、成本高。现阶段,传统的、被动的、孤立的、半自动式的运维管理模式经常让 运维部口疲急不堪,其问题主要表现在W下几个方面: 1)无统一的运维平台 阳〇化]一方面,各个运维监控平台(如信息运维综合监管平台、主机监控系统等)之间相 互独立工作,运维信息分散、管理不集中,各类资源没有进行整合,运维管理人员往往需要 对多个平台进行监管,不仅工作量大,而且效率低下;另一方面,服务器各节点、磁盘各个分 区使用情况、数据库及表的使用率等分别使用不同的监控查询机制,可视化效果差,各个监 控设备的状态信息显示形式互异,不能对查询结果进行对比,更不能在全局范围内统计整 个集群设备状态信息,无法实现对集群状态信息的全局掌控。 2)缺乏危险预测机制 由于运维系统缺乏危险预测功能,通常运维人员需要保持24小时开机,时刻要警 惕服务器安全问题的发生。如果服务器出现故障,或磁盘、数据库空间写满,而运维人员不 能立刻到达现场,会对集团造成重大损失。 3)缺乏辅助决策机制 当前运维监控系统只是简单扮演"监控告警"角色,当各设备的实际监测值大于所 设定阔值时,进行告警。现阶段运维监控系统普遍缺乏辅助决策机制,当告警、故障出现时 不能有效帮助运维人员进行事务处理,提供指导参考。同时由于运维自动化水平的低下,很 多简单的故障都需要运维人员手动进行处理,加大了工作负担。所W,亟需建立辅助决策机 制。 为推进运检自动化管理,提升运检人员工作效率,提升运维标准化和自动化水平, 实现运维工作可靠、高效和信息系统的"可控、能控、在控",进行运维自动化应用势在必行。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供,W服 务器集群运维为中屯、,建设统一运维监控管理与负载预测系统,管理监控CPU、内存、磁盘、 数据库表运行、使用状态信息,并设计存储与预测模型,实现整个服务器运维集群中的存储 资源预测管理与计算资源分配管理。 本专利技术的目的是通过W下技术方案来实现的:一种运维自动化系统,它包括W下 功能模块: 数据采集模块:用于通过网管协议或者日志文件获取运维系统中各个被监控单元 的关键性能指标和运行状态,为运维数据处理、分析W及预测提供数据基础。 预处理与存储模块:对数据采集模块采集得到的数据进行清洗、过滤、补缺失处理 和自动删除预处理,同时对于结构化和非结构化的数据进行数据转化和元数据提取,对于 不同类别的运维数据进行分类存储。 预测模块:根据预处理与存储模块处理之后的数据,针对不同的预测方式建立不 同的预测模型并进行预测,所述的预测模块包括CPU负载预测模块和磁盘负载预测模块。 算法评价模块:建立预测模块的预测算法的评价标准,将实际值与预测算法的预 测值进行对比,建立自学习过程:当预测算法的预测值不满足规定误差时,根据实际值修改 预测模块的预测模型参数,保证在特定环境和特定时间内选择出合适的算法模型。 运维监控管理模块:负责和运维管理人员按进行交互,其包括W下子模块: (1)数据展示单元:将数据采集模块采集到的监控单元的数据经过预处理与存储 模块的分析和加工之后,向运维管理人员进行展示。 似预测信息展示单元:将预测模块预测得到的CPU负载和磁盘空间使用情况的 预测信息展示给运维管理人员。 (3)告警单元:监听被监控设备的状态信息,包括当前状态信息和预测状态信息, 当设备某一状态数据值超过所设置的阔值时,告警模块将按提前设置好的告警方式进行告 警,并且根据常见运维故障构建知识库,在做出告警信息的同时并给出辅助决策。 所述的数据采集模块采集的数据来自于集群中主机服务器、数据库、存储设备和 监控设备,包括非云环境下的数据采集和云环境下的数据采集,其中,对于非云环境下的数 据采集,针对不同的数据采集环境,提供集中式数据采集和分层式数据采集的框架,并且采 用SY化0G、SNMP、肥B沈RVICE、JMS协议的采集方式;对于云环境下的数据采集,提供多级多 域的数据采集框架,直接对云环境下的中的管理节点进行数据采集。 所述的运维监控管理模块还包括一个用户管理单元,所述的用户管理单元用于权 限管理、用户信息管理、用户注册和用户登录。 所述的告警单元还包括对于有相应权限的用户提供告警级别设置、告警方式设置 和告警阔值设置子模块。 一种运维自动化的方法,它包括W下步骤:Sl:数据采集,用于通过网管协议或者日志文件获取运维系统中各个被监控单元 的关键性能指标和运行状态,为运维数据处理、分析W及预测提供数据基础; S2:预处理与存储,对采集得到的数据进行清洗、过滤、补缺失处理和自动删除预 处理,同时对于结构化和非结构化的数据进行数据转化和元数据提取,对于不同类别的运 维数据进行分类存储; S3:预测,利用预处理后的数据,根据不同的预测方式建立不同的预测模型并进行 预测,所述的预测模型包括CPU负载预测模型和磁盘负载预测模型;S4:模型评价,建立预测模型的评价标准,将实际值与预测模型的预测值进行对 比,建立自学习过程:当预测模型的预测值不满足规定误差时,根据实际值修改预测模型的 预测模型参数,保证在特定环境和特定时间内选择出合适的模型; S5 :运维监控管理,负责和运维管理人员按进行交互,其包括W下子步骤: S51 :数据展示,将采集到的监控单元的数据经过预处理与存储后,向运维管理人 员进行展示;[00川 S52 :预测信息展示,将预测得到的CPU负载和磁盘空间使用情况展示给运维管理 人员;S53:告警,监听被监控设备的状态信息,包括当前状态信息和预测状态信息,当设 备某一状态数据值超过所设置的阔值时,告警模块将按提前设置好的告警方式进行告警, 并且根据常见运维故障构建知识库,在做出告警信息的同时并给出辅助决策。 所述的磁盘负载预测模型为磁盘使用空间增长随业务量与季节的变化而变化的 规律模型,其建模过程包括W下子步骤:S311:建立基于时间序列的线性季节性增长模型,公式如下: Yt= (a+bt)+S t+It; 式中,yt为磁盘空间使用量,t为时间,St为季节变化,It为新增业务上线,a与b 均为常数;S312:确定步骤S311中的模型的输入值,包括W下子步骤:A :根据预处理与存储,获取服务器磁盘空间的已用空间、增长量、磁盘剩余空间;B:通过增长量变化率即平均日增长量增量At'计算得出季节变化S本文档来自技高网
...

【技术保护点】
一种运维自动化系统,其特征在于:它包括以下功能模块:数据采集模块:用于通过网管协议或者日志文件获取运维系统中各个被监控单元的关键性能指标和运行状态,为运维数据处理、分析以及预测提供数据基础;预处理与存储模块:对数据采集模块采集得到的数据进行清洗、过滤、补缺失处理和自动删除预处理,同时对于结构化和非结构化的数据进行数据转化和元数据提取,对于不同类别的运维数据进行分类存储;预测模块:根据预处理与存储模块处理之后的数据,针对不同的预测方式建立不同的预测模型并进行预测,所述的预测模块包括CPU负载预测模块和磁盘负载预测模块;算法评价模块:建立预测模块的预测算法的评价标准,将实际值与预测算法的预测值进行对比,建立自学习过程:当预测算法的预测值不满足规定误差时,根据实际值修改预测模块的预测模型参数,保证在特定环境和特定时间内选择出合适的算法模型;运维监控管理模块:负责和运维管理人员按进行交互,其包括以下子模块:(1)数据展示单元:将数据采集模块采集到的监控单元的数据经过预处理与存储模块的分析和加工之后,向运维管理人员进行展示;(2)预测信息展示单元:将预测模块预测得到的CPU负载和磁盘空间使用情况的预测信息展示给运维管理人员;(3)告警单元:监听被监控设备的状态信息,包括当前状态信息和预测状态信息,当设备某一状态数据值超过所设置的阈值时,告警模块将按提前设置好的告警方式进行告警,并且根据常见运维故障构建知识库,在做出告警信息的同时并给出辅助决策。...

【技术特征摘要】

【专利技术属性】
技术研发人员:张海全杨东张宗华
申请(专利权)人:南京南瑞集团公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1