一种面向复杂系统的监控和故障自愈系统及其方法技术方案

技术编号:24215359 阅读:239 留言:0更新日期:2020-05-20 18:51
本发明专利技术属于数据中心系统运维技术,涉及一种面向复杂系统的监控和故障自愈系统及其方法。本发明专利技术包括资源与应用监控模块、业务关系模型模块、故障诊断分析模块、故障处理模块。本发明专利技术根据业务关系模型和监控指标数据,进行诊断分析,依据分析结果自动执行相应故障恢复操作,实现快速故障恢复和预防,提高运维效率,保障研发系统良好运行。

A complex system oriented monitoring and fault self-healing system and its method

【技术实现步骤摘要】
一种面向复杂系统的监控和故障自愈系统及其方法
本专利技术属于数据中心系统运维技术,涉及一种面向复杂系统的监控和故障自愈系统及其方法。
技术介绍
随着航空装备深入迈进数字化、信息化,整个研发体系日益庞大复杂,业务系统不断增加,各系统中组件扩增,关系日趋复杂。实现研发系统的有效监控,问题故障的快速定位处理和预防,保障研发系统良好运行十分必要。传统的监控方式为面向主机、网络、存储及应用软件等进行分类列举,采集相应指标进行监控。故障定位需要多领域知识面广、经验丰富的专家协作完成,故障处理大量依赖人工完成,低效重复,容易遗漏出错。为提高运维效率,通过自动化运维脚本完成一些重复性工作,包括系统监控、故障处理、日常巡检等。可以认为自动化运维是一种基于行业领域知识和运维场景的专家系统。随着系统规模的膨胀,以及服务类型的复杂多样,依赖人工判定的方法常常难以应对运维问题。为应对数据中心规模扩展面临的运营管理需求,运维监控开始由传统面向基础资源监控转变为以应用为中心进行服务监控,并在问题故障处理中根据依赖关系进行诊断和处理。>现有技术有本文档来自技高网...

【技术保护点】
1.一种面向复杂系统的监控和故障自愈系统,其特征为:所述系统包括资源与应用监控模块、业务关系模型模块、故障诊断分析模块、故障处理模块,其中:/n资源与应用监控模块:负责对主机、中间件、应用服务层及业务日志进行监控指标数据采集;/n业务关系模型模块:负责业务服务拓扑关系管理和服务部署信息管理;/n故障诊断分析模块:负责业务服务告警处理及故障诊断,诊断完成后,将故障节点依赖的对象入待检测队列,由检测服务进行指标数据分析,判定是否异常,如判定异常,则通知故障处理模块处理;所述故障诊断,依据:a.资源与应用监控模块到的监控指标数据;b.业务关系模型模块中的业务服务拓扑关系和服务部署信息;/n故障处理模...

【技术特征摘要】
1.一种面向复杂系统的监控和故障自愈系统,其特征为:所述系统包括资源与应用监控模块、业务关系模型模块、故障诊断分析模块、故障处理模块,其中:
资源与应用监控模块:负责对主机、中间件、应用服务层及业务日志进行监控指标数据采集;
业务关系模型模块:负责业务服务拓扑关系管理和服务部署信息管理;
故障诊断分析模块:负责业务服务告警处理及故障诊断,诊断完成后,将故障节点依赖的对象入待检测队列,由检测服务进行指标数据分析,判定是否异常,如判定异常,则通知故障处理模块处理;所述故障诊断,依据:a.资源与应用监控模块到的监控指标数据;b.业务关系模型模块中的业务服务拓扑关系和服务部署信息;
故障处理模块:负责启动故障恢复操作作业。


2.根据权利要求1所述的监控和故障自愈系统,其特征为:所述故障处理模块中,故障恢复操作作业包括服务进程重启、磁盘目录清理、服务器主机重启;故障恢复操作作业通过安装在主机上的远程管控Agent进行执行。


3.根据权利要求2所述的监控和故障自愈系统,其特征为:所述故障恢复操作作业描述包括作业名、执行对象、作业脚本。


4.根据权利要求1所述的监控和故障自愈系统,其特征为:所述故障诊断分析模块中,异常的判定方式包括静态阈值、环比、是否可用。


5.一种基于权利要求1所述系统的监控和故障自愈方法,其特征为所述方法包括以下步骤:
步骤一,通过部署在被监控对象上的数据采集Agent,周期性进行监控指标数据采集;所述被监控对象包括主机、中间件、应用服务层;
步骤二,运维人员通过业务关系模型模块,构建各应用系统业务服务拓扑...

【专利技术属性】
技术研发人员:杨科艾国红黎志碧唐博陆陈冯大川
申请(专利权)人:中国航空工业集团公司成都飞机设计研究所
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1