IT系统故障诊断及修复方法、装置、设备、存储介质制造方法及图纸

技术编号:20362766 阅读:24 留言:0更新日期:2019-02-16 16:28
本发明专利技术公开了一种IT系统故障诊断及修复方法、装置、设备、存储介质,属于信息技术及用户界面技术领域,该方法包括以下步骤:通过部署pinpoint,获取应用系统的性能数据及内容模块之间的实时调用关系;结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系;根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因;通过自动化操控执行相关脚本或命令,完成系统故障的修复。本发明专利技术示例的技术方案,解决了现有应用监控只能监控应用相关性能参数,无法定位故障,更不能对故障实现自我修复的问题,有效的提高了用户体验和用户感知,减轻用户工作量,大幅提高运维效率。

【技术实现步骤摘要】
IT系统故障诊断及修复方法、装置、设备、存储介质
本专利技术涉及信息技术及用户界面
,具体地说是一种IT系统故障诊断及修复方法、装置、设备、存储介质。
技术介绍
随着IT建设的不断深入和完善,在提供完美最终用户体验的同时,还要以更快的速度提供更多服务。而这些压力可能导致随着时间跨物理、虚拟、混合云和已有环境建立了复杂的复合应用,使IT组织难以确保最佳性能、提供最终用户所需的完美体验、降低复杂性,结果导致在问题出现时只会在互相指责中浪费时间,不能定位故障产生的原因,更不能对故障进行修复。综上所述,现有应用监控系统只能监控性能警告,无法实现故障诊断并修复,用户体验和用户感知较差。
技术实现思路
为了解决上述现有技术中存在的问题,本专利技术的目的在于提供一种IT系统故障诊断及修复方法、装置、设备、存储介质,有效的提高了用户体验和用户感知,方便用户快速定位故障产生的根本原因,对于常见问题能够自动修复,大幅提高运维效率。本专利技术所采用的技术方案为:一方面,本专利技术提供了一种IT系统故障诊断及修复方法,包括以下步骤:通过部署pinpoint,获取应用系统的性能数据及内容模块之间的实时调用关系;结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系;根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因;通过自动化操控执行相关脚本或命令,完成系统故障的修复。进一步的,所述部署pinpoint,包括收集器(Collector)、控制台(Web)及代理(Agent),采用HBase进行存储,代理部署在被监控应用系统内。进一步的,基于pinpoint的能力,在pinpoint部署完成的基础上,对需要监控的应用进程打上探针,通过探针采集应用进程的性能数据及以此进程为中心的服务间的调用关系,存储到HBase数据库中。进一步的,所述对需要监控的应用进程打上探针,为配置pinpoint-agent采集器,在不侵入应用的情况下通过修改配置的方式实现应用的监控。进一步的,所述结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系,包括:分析基于HBase存储的应用性能数据和服务调用状态及次数数据;应用性能数据超过或低于设定门限值即判定应用性能为异常;服务调用失败次数超过设定比例即判定服务调用为异常。进一步的,所述基础设施监控性能数据至少包括主机、网络设备和数据库的CPU、内存和磁盘空间数据;和/或,所述应用日志异常数据至少包括应用日志打印的错误数据、中断数据及应用日志僵死。另一方面,本专利技术还提供了一种IT系统故障诊断及修复装置,包括:采集模块,配置用于通过部署pinpoint,获取应用系统的性能数据及内容模块之间的实时调用关系;分析模块,配置用于结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系;定位模块,配置用于根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因;修复模块,配置用于通过自动化操控执行相关脚本或命令,完成系统故障的修复。进一步的,所述修复模块内设置有自动化操控模块,自动化操控模块用于将编写的命令或预先制定的脚本下发到指定机器上并执行,并且能够将多个操作按照一定的顺序进行编排来应对相应场景,从而实现故障的预处理和修复。另一方面,本专利技术还提供了一种设备,所述设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本专利技术示例的任一种IT系统故障诊断及修复方法。另一方面,本专利技术还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现本专利技术示例的任一种IT系统故障诊断及修复方法。与现有技术相比,本专利技术的有益效果为:本专利技术示例的IT系统故障诊断及修复方法,能够根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因,有效的提高了用户体验和用户感知,方便用户快速定位故障产生的根本原因;通过自动化操控执行相关脚本或命令,对于常见问题能够自动修复,大幅提高运维效率,解决现有应用监控系统只能监控性能告警,无法实现故障诊断并修复的技术问题。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1为本专利技术实施例方法的步骤示意图;图2为本专利技术实施例方法的流程示意图;图3为本专利技术实施例方法的故障修复的步骤示意图;图4为本专利技术实施例装置的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。如图1所示,本专利技术的一个实施例提供了一种IT系统故障诊断及修复方法,包括以下步骤:S1:通过部署pinpoint,获取应用系统的性能数据及内容模块之间的实时调用关系;S2:结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系;S3:根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因;S4:通过自动化操控执行相关脚本或命令,完成系统故障的修复。S1中,所述部署pinpoint,包括收集器(Collector)、控制台(Web)及代理(Agent),采用HBase进行存储,Agent需要部署在被监控应用系统内。基于pinpoint的能力,在pinpoint部署完成的基础上,对需要监控的应用进程打上探针(Agent),即可通过探针采集应用进程的性能数据及以此进程为中心的服务间的调用关系,存储到HBase数据库中。Hbase是一个分布式的、面向列的开源数据库,pinpoint用来存储监控信息,经过二次开发获取Hbase中存储的监控信息用来实现异常分析。对需要监控的应用进程打上探针,是指配置pinpoint-agent采集器,在不侵入应用的情况下通过修改配置的方式实现应用的监控。S1中pinpoint采集的仅为应用性能数据,为了关联分析定位原因还需要采集基础设施监控性能数据和应用日志异常数据,基础设施监控性能数据和应用日志异常数据通过脚本采集,基础设施监控性能数据包括主机、网络设备、数据库等的CPU、内存、磁盘空间等数据;应用日志异常数据主要包括日志错误关键字检索和统计日志文件大小判断应用进程是否僵死等。S2中,以系统故障现象为入口,以应用异常为切入点,两者建立关联关系,快速分析异常现象,辅助定位故障原因。所述结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系,包括:分析基于HBase存储的应用性能数据和服务调用状态及次数数据;应用性能数据超过或低于设定门限值即判定应用性能为异常;服务调用失败次数超过设定比例即判定服务调用为异常。将采集到的应用性能数据和调用关系从Hbase中取出,首先分析应用性能数据,将应用性能数据与预先配置的门限数据比较,超过或低于门限即认为异常;其次分析服务调用数据,根据一定时间内服务调用失败的比例判断是否异常。S3中,根据S2中被判定为异常的应用性能和服务本文档来自技高网...

【技术保护点】
1.一种IT系统故障诊断及修复方法,其特征在于,包括以下步骤:通过部署pinpoint,获取应用系统的性能数据及内容模块之间的实时调用关系;结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系;根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因;通过自动化操控执行相关脚本或命令,完成系统故障的修复。

【技术特征摘要】
1.一种IT系统故障诊断及修复方法,其特征在于,包括以下步骤:通过部署pinpoint,获取应用系统的性能数据及内容模块之间的实时调用关系;结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系;根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因;通过自动化操控执行相关脚本或命令,完成系统故障的修复。2.根据权利要求1所述的IT系统故障诊断及修复方法,其特征在于,所述部署pinpoint,包括收集器、控制台及代理,采用HBase进行存储,代理部署在被监控应用系统内。3.根据权利要求2所述的IT系统故障诊断及修复方法,其特征在于,基于pinpoint的能力,在pinpoint部署完成的基础上,对需要监控的应用进程打上探针,通过探针采集应用进程的性能数据及以此进程为中心的服务间的调用关系,存储到HBase数据库中。4.根据权利要求3所述的IT系统故障诊断及修复方法,其特征在于,所述对需要监控的应用进程打上探针,为配置pinpoint-agent采集器,在不侵入应用的情况下通过修改配置的方式实现应用的监控。5.根据权利要求2所述的IT系统故障诊断及修复方法,其特征在于,所述结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系,包括:分析基于HBase存储的应用性能数据和服务调用状态及次数数据;应用性能数据超过或低于设定门限值即判定应用性能为异常;服务调用失败次数超过设定比例即判定服务调用为...

【专利技术属性】
技术研发人员:熊钰才唐银春汪伟伟
申请(专利权)人:科大国创软件股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1