一种IT运维管理系统技术方案

技术编号:17597915 阅读:33 留言:0更新日期:2018-03-31 10:50
本发明专利技术涉及系统运维管理技术领域,尤其是一种IT运维管理系统。包括系统监测模块、故障信息识别模块、故障修复模块、故障实例数据库、脚本调用模块和算法调用模块和故障修复评估模块;系统监测模块用于监测系统的运行状态;故障信息识别模块异常情况进行判断是否为虚警;故障实例数据库用于存储系统的历史故障实例与故障特征;脚本调用模块用于存放及执行各类故障的维护脚本;算法调用模块用于存储并执行各类分类算法;故障修复模块用于对故障进行修复;故障修复评估模块用于对故障修复结果进行评估。本发明专利技术能对故障快速修复,并能自动对修复结果不理想及修复时间过长的故障提醒管理员进行优化。

A IT operation and maintenance management system

【技术实现步骤摘要】
一种IT运维管理系统
本专利技术涉及系统运维管理
,尤其是一种IT运维管理系统。
技术介绍
目前IT运维系统规模不断增长,系统在对服务器、虚拟机、交换机等网络设备性能及其网络连通性进行监测过程中,运维人员每天会收到越来越多的监控报警,面对海量的运维指标当系统出现故障时,运维人员很难从海量监控指标中迅速找到故障根因,报警风暴极大地降低了定位问题的速度,故障恢复速度基本依赖于运维人员的经验以及操作响应速度。因此建立一个故障自动诊断与快速恢复系统协同处理的智能运维平台,针对多场景构建机器学习模型与大数据专家系统,实时对运维平台的异常进行在线诊断与定位,当系统出现故障时通过执行相应策略实现快速修复,恢复正常运行是人们所需要的。
技术实现思路
为了克服上述问题,本专利技术提供一种IT运维管理系统,实时对系统的异常进行在线诊断与定位,当系统出现故障时通过执行相应策略实现快速修复,并且能自动对修复结果不理想及修复时间过长的故障提醒系统管理员进行优化。本专利技术解决其技术问题所采用的技术方案是:一种IT运维管理系统,包括系统监测模块、故障信息识别模块、故障修复模块、故障修复评估模块,故障实例数据库、通信模块、脚本调用模块和算法调用模块;所述系统监测模块用于监测系统的运行状态,当监测到异常时,系统监测模块将当前的状态参数及监测到的异常情况传递给故障信息收集模块;所述系统监测模块还用于采集原始日志数据并将其进行初步整理、格式化所述故障信息识别模块用于将收集模块传递收集到的异常情况进行识别确认是否为虚警,将判断为故障的信息传递给故障修复模块进行修复;所述故障修复模块用于在接收到故障信息识别模块的报警信息后根据故障特征对故障进行修复;所述故障修复评估模块用于对故障修复模块的故障修复结果进行评估是否合格;所述故障修复评估模块还包括时间检测单元和故障处理记录单元,所述时间检测单元用于检测故障修复花费时间并判断所花费的时间是否大于阈值,所述故障处理记录单元用于记录处理的故障的故障原因、消除故障的异常记录、处理时间及评估结果;所述故障实例数据库用于存储系统的历史故障实例与故障特征;所述脚本调用模块用于存放及执行各类故障的维护脚本;所述算法调用模块用于存储并执行各类分类算法、识别算法、匹配算法,供各模块进行调用计算;所述通信模块用于将故障修复结果评估不合格的故障信息传输给管理人员。进一步的,所述故障修复评估模块还用于对故障修复后,根据系统的运行状态对每次修复结果进行打分,定期将打分低的自修复执行过程提交给系统管理员进行分析,并提示管理员优化存诸在脚本调用模块中对应的脚本。进一步的,所述时间检测单元工作流程为:当故障修复模块在接收到故障信息识别模块的报警信息后,所述时间检测单元检测并记录当前系统时间,当故障修复模块将故障修复后,所述时间时间检测单元再次检测并记录当前系统时间,并计算两次所检测到的时间间隔,并判断所述时间间隔是否大于阈值,当所述时间间隔大于阈值时,将该故障自修复执行过程提交给系统管理员进行分析,并提示管理员优化存诸在脚本调用模块中对应的脚本。进一步的,所述阈值为修复该故障所需平均时间的2-3倍。进一步的,所述报警信息识别模块接收到报警信息后,提取报警信息的特征与故障实例数据库的故障特征进行初步匹配并计算评分,当评分高于预设阈值时,则认为此为故障信息;当评分低于预设阈值时,提取脚本调用模块中的功能验证脚本执行,对业务进行持续一段时间的验证与观察如持续一段时间内,如业务与功能都正常,则认为此报警为虚警,同时,系统将此种情况存及其特征数据提交至故障实例数据库。进一步的,所述故障修复模块对故障修复过程为:在接收到报警信息后,将接收到的故障信息与故障实例数据库的各类故障特证进行一一比对,选取若干个相似度最高的故障信息,从故障实例数据库中拉取对应的主动诊断脚本的编号,再到脚本调用模块中调用主动诊断脚本,来进一步获取诊断日志,获取到诊断日志后,与故障实例数据库的中的实例特证进行一一比对,计算契合度;当有多个契合度达标,则首先采用契合度高的方案调用执行对应的修复脚本,进行修复,修复完成后,再调用故障修复评估模块进行评估,评估达标则修复完成;如果评估不达标,则进行回退,再执行下一个契合度达标的方案。当所有契合的方案都不达标,则通知系统管理员进行人工修复,并请管理员完善故障实例数据库和脚本调用模块的脚本。本专利技术的有益效果是,本专利技术中的监测模块能对系统进行全面检测,当检测系统出现异常时,故障信息识别模块对异常信息进行识别判断是否为故障,对于判断为故障的信息,故障修复模块对故障进行有效修复,故障修复评估模块对故障修复模块的修复结果进行评估能针对修复结果不理想的故障提交给系统管理员进行分析,本系统还能对于修复过程中出现所需时间过长的结果提醒统管理员进行分析并进行相应的优化系统。本系统不仅能对异常进行在线诊断与定位,当系统出现故障时通过执行相应策略实现快速修复,并且能自动对修复结果不理想及修复时间过长的故障提醒系统管理员进行优化,不断提升故障修复效果及效率。附图说明图1是本专利技术一较佳实施方式的IT运维管理系统结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,当组件被称为“固定于”另一个组件,它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件,它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。请同时参见图1本专利技术一较佳实施方式提供一种IT运维管理系统,包括包括系统监测模块10、故障信息识别模块20、故障修复模块30和故障修复评估模块40。系统监测模块10用于监测系统的运行状态,当监测到异常时,系统监测模块10将当前的状态参数及监测到的异常情况传递给故障信息收集模块20,系统监测模块10还用于采集原始日志数据并将其进行初步整理、格式化;故障信息识别模块20用于将收集模块传递收集到的异常情况进行识别确认是否为虚警,将判断为故障的信息传递给故障修复模块30进行修复;故障修复模30块用于在接收到故障信息识别模块的报警信息后根据故障特征对故障进行修复;故障修复评估模块40用于对故障修复模块的故障修复结果进行评估是否合格;故障修复评估模块40还包括时间检测单元410和故障处理记录单元420,时间检测单元410用于检测故障修复花费时间并判断所花费的时间是否大于阈值,故障处理记录单元420用于记录处理的故障的故障原因、消除故障的异常记录、处理时本文档来自技高网
...
一种IT运维管理系统

【技术保护点】
一种IT运维管理系统,其特征在于:包括系统监测模块、故障信息识别模块、故障修复模块、故障修复评估模块、故障实例数据库、脚本调用模块、算法调用模块和通信模块;所述系统监测模块用于监测系统的运行状态,当监测到异常时,系统监测模块将当前的状态参数及监测到的异常情况传递给故障信息收集模块;所述系统监测模块还用于采集原始日志数据并将其进行初步整理、格式化;所述故障信息识别模块用于将收集模块传递收集到的异常情况进行识别确认是否为虚警,将判断为故障的信息传递给故障修复模块进行修复;所述故障修复模块用于在接收到故障信息识别模块的报警信息后根据故障特征对故障进行修复;所述故障修复评估模块用于对故障修复模块的故障修复结果进行评估是否合格;所述故障修复评估模块还包括时间检测单元和故障处理记录单元,所述时间检测单元用于检测故障修复花费时间并判断所花费的时间是否大于阈值,所述故障处理记录单元用于记录处理的故障的故障原因、消除故障的异常记录、处理时间及评估结果;所述故障实例数据库用于存储系统的历史故障实例与故障特征;所述脚本调用模块用于存放及执行各类故障的维护脚本;所述算法调用模块用于存储并执行各类分类算法、识别算法、匹配算法,供各模块进行调用计算;所述通信模块用于将故障修复结果评估不合格的故障信息传输给管理人员。...

【技术特征摘要】
1.一种IT运维管理系统,其特征在于:包括系统监测模块、故障信息识别模块、故障修复模块、故障修复评估模块、故障实例数据库、脚本调用模块、算法调用模块和通信模块;所述系统监测模块用于监测系统的运行状态,当监测到异常时,系统监测模块将当前的状态参数及监测到的异常情况传递给故障信息收集模块;所述系统监测模块还用于采集原始日志数据并将其进行初步整理、格式化;所述故障信息识别模块用于将收集模块传递收集到的异常情况进行识别确认是否为虚警,将判断为故障的信息传递给故障修复模块进行修复;所述故障修复模块用于在接收到故障信息识别模块的报警信息后根据故障特征对故障进行修复;所述故障修复评估模块用于对故障修复模块的故障修复结果进行评估是否合格;所述故障修复评估模块还包括时间检测单元和故障处理记录单元,所述时间检测单元用于检测故障修复花费时间并判断所花费的时间是否大于阈值,所述故障处理记录单元用于记录处理的故障的故障原因、消除故障的异常记录、处理时间及评估结果;所述故障实例数据库用于存储系统的历史故障实例与故障特征;所述脚本调用模块用于存放及执行各类故障的维护脚本;所述算法调用模块用于存储并执行各类分类算法、识别算法、匹配算法,供各模块进行调用计算;所述通信模块用于将故障修复结果评估不合格的故障信息传输给管理人员。2.根据权利要求1所述IT运维管理系统,其特征在于:所述故障修复评估模块还用于对故障修复后,根据系统的运行状态对每次修复结果进行打分,定期将打分低的自修复执行过程提交给系统管理员进行分析,并提示管理员优化存诸在脚本调用模块中对应的脚本。3.根据权利要求1所述IT运维管理系统,其特征在于:所述时间检测单元工作流程为:当故障修复模块在接收到故障信息识别模块的报警信息后,所述时间检测单元检测并记录当前系...

【专利技术属性】
技术研发人员:姚小艳
申请(专利权)人:广西宜州市联森网络科技有限公司
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1