业务系统的故障分析方法、系统、设备和存储介质技术方案

技术编号:25802126 阅读:25 留言:0更新日期:2020-09-29 18:36
本公开提供了一种业务系统的故障分析方法、系统、设备和存储介质。所述方法包括:获取业务运行过程中的运行指标;当所述运行指标异常时,获取该异常运行指标对应的错误对象;获取所述错误对象所涉及业务的业务链集;根据所述异常的运行指标对应的故障节点判断机制从所述业务链集中获取多个节点;从所述多个节点中选取出现次数超过预定阈值的节点作为故障节点。本公开提供的故障分析方法,在业务运行指标异常时,通过获取错误对象所涉及业务的业务链集,进而在业务链集中获取故障节点,能够基于业务链信息判断故障节点的范围,进而更加准确的定位故障产生原因。

【技术实现步骤摘要】
业务系统的故障分析方法、系统、设备和存储介质
本专利技术涉及计算机应用
,更为具体而言,涉及一种业务系统的故障分析方法、系统、设备和存储介质。
技术介绍
业务系统运行时通常是由多个节点有序结合,共同参与完成的业务链。当业务系统运行异常时,就需要快速、准确地找出业务链上引起其异常的一个或多个节点,进而才能准确地排除故障,恢复业务功能的正常运行。现有技术通常需要由业务专家根据其自身运维经验进行分析和判断,以确定业务系统运行异常时的业务异常节点。除上述人工参与的方法外,还可以通过尽量确定业务系统关联节点的范围(这些节点不一定在业务链上),然后收集这些节点的运行数据,并通过特定算法对这些运行数据的特定变化进行分析,进而判断业务系统关联节点是否为异常节点。进一步的,针对业务异常节点的故障根本原因的定位,主要根据异常/故障节点的告警信息或运行指标的异常变化信息来判定业务故障的根本原因。然而,上述现有技术都无法准确地获取节点间的关联关系、缩小故障节点范围,导致根据异常节点定位故障原因的准确性低,而且由于系统关联节点数据收集的运算工作量大,则无法达到快速定位故障节点的目标。其次,没有建立配置对象的关联关系,就不能自动获取该节点多维度的关联配置对象,包括平台层、网络层、设备层配置对象,进而无法进行完整的根因分析工作。同时,对于故障的根因定位,仅仅根据异常节点的告警信息或运行指标的异常变化信息来定位根因,无法对故障的根因进行全面的分析,进而无法实现准确的根因定位。
技术实现思路
为解决上述现有技术存在的问题或部分问题,本专利技术提供了一种业务系统的故障分析方法、系统、设备和存储介质,可以基于业务链信息判断故障节点的范围,进而更加准确的定位故障产生原因。根据本专利技术的第一方面,本专利技术实施方式提供了一种业务系统的故障分析方法,包括:获取业务运行过程中的运行指标;当所述运行指标异常时,获取该异常运行指标对应的错误对象;获取所述错误对象所涉及业务的业务链集;根据所述异常的运行指标对应的故障节点判断机制从所述业务链集中获取多个节点;从所述多个节点中选取出现次数超过预定阈值的节点作为故障节点。本专利技术上述实施方式通过获取业务运行指标异常时的错误对象所涉及的业务链信息,在根据所述业务链集获取的多个节点中选取故障节点,可以结合业务链信息分析获取更加准确的故障节点,为后续的故障根因分析提供基础。在本专利技术的一些实施方式中,所述运行指标包括:业务成功率、响应时间。在本专利技术的一些实施方式中,获取所述错误对象所涉及业务的业务链集包括:获取所述错误对象所涉及业务的标识信息;根据所述标识信息获取所述错误对象所涉及业务的业务链,并汇总得到所述业务链集。本专利技术上述实施方式通过获取错误对象涉及的每笔业务标识,进而通过相同的业务标识找到该笔业务的业务链,最后汇总得到错误对象对应的业务链集,能够得到错误对象关联的所有业务链信息及节点信息,使得对于业务系统的故障分析能够基于关联的业务链信息,由此获取准确的节点范围,进而得到更加准确的故障节点。在本专利技术的一些实施方式中,当所述运行指标异常时,获取该异常运行指标对应的错误对象包括:当所述业务成功率异常时,获取数量增长超过第一阈值的错误码对象作为错误对象。在本专利技术的一些实施方式中,根据所述异常的运行指标对应的故障节点判断机制获取所述业务链集中的多个节点包括:将所述业务链集中每一条业务链上的最后一个报错节点作为所述多个节点中的一个。在本专利技术的一些实施方式中,当所述运行指标异常时,获取该异常运行指标对应的错误对象还包括:当所述响应时间异常时,获取响应时间增长超过第二阈值的业务对象作为错误对象。在本专利技术的一些实施方式中,根据所述异常的运行指标对应的故障节点判断机制获取所述业务链集中的多个节点还包括:将所述业务链集中每一条业务链上处理时间变化最大的节点作为所述多个节点中的一个。在本专利技术的一些实施方式中,所述故障节点诊断方法还包括:获取所述故障节点的多维度的关联配置对象。在本专利技术的一些实施方式中,所述多维度的关联配置对象包括以下至少一种:应用维度的关联配置对象、平台维度的关联配置对象、网络维度的关联配置对象、存储维度的关联配置对象、主机系统维度的关联配置对象。在本专利技术的一些实施方式中,所述故障节点诊断方法还包括:根据所述故障节点的多维度的关联配置对象对应的特征指标数据定位故障原因。本专利技术上述实施方式通过获取故障节点的多维度的关联配置对象对应的特征指标数据,能够收集更加全面的可能导致故障的线索,为根因定位的准确性提供基础。在本专利技术的一些实施方式中,根据所述故障节点的多维度的关联配置对象对应的特征指标数据定位故障原因,包括:过滤和汇总所述多维度的关联配置对象的变更信息、告警信息、用户访问信息;根据所述特征指标数据对应的健康检查信息和异常检测信息获取所述特征指标数据的异常程度和异常形态;根据所述特征指标数据的异常程度,以及所述特征指标数据的异常形态与所述运行指标异常的形态之间的相似程度,为所述特征指标数据分配权重;确定所述特征指标数据之间的追溯关系;输出所述过滤和汇总后的多维度的关联配置对象的变更信息、告警信息、用户访问信息,以及按照所述特征指标数据的权重和所述追溯关系推荐对应的配置对象及特征指标作为故障原因。本专利技术上述实施方式通过输出经过过滤和汇总后的多维度的关联配置对象的变更信息、告警信息、用户访问信息,同时根据特征指标数据的异常程度、特征指标数据的异常形态与运行指标异常的形态之间的相似程度得到的权重、特征指标数据之间的追溯关系推荐对应的配置对象及特征指标作为故障原因,可以将可能导致故障的原因按照其可能性高低和关联关系进行推荐,实现标准化、智能化的故障原因输出,由此可以减少人员经验差异引起的根因定位偏差,实现标准化且高效的根因定位。根据本专利技术的第二方面,本专利技术实施方式提供了一种业务系统的故障分析系统,包括:运行指标获取模块,用于获取业务运行过程中的运行指标;错误对象获取模块,用于当所述运行指标异常时,获取该异常运行指标对应的错误对象;业务链集获取模块,用于获取所述错误对象所涉及业务的业务链集;节点获取模块,用于根据所述异常的运行指标对应的故障节点判断机制获取所述业务链集中的多个节点;故障节点获取模块,用于选取所述多个节点中出现次数超过预定阈值的节点作为故障节点。本专利技术上述实施方式通过获取业务运行指标异常时的错误对象所涉及的业务链信息,在根据所述业务链集获取的多个节点中选取故障节点,可以结合业务链信息分析获取更加准确的故障节点,为后续的故障根因分析提供基础。在本专利技术的一些实施方式中,所述运行指标包括:业务成功率、响应时间。在本专利技术的一些实施方式中,获取所述错误对象所涉及业务的业务链集包括:获取所述错误对象所涉及业务的标识信息;根据所述标识信息获取所述错误对象所涉及业务的业务链,并汇总得到所述业务链集。本专利技术上述实施方式通过获取错误对象涉及的每笔业务标识,进而通过相同的业本文档来自技高网...

【技术保护点】
1.一种业务系统的故障分析方法,其特征在于,所述故障分析方法包括:/n获取业务运行过程中的运行指标;/n当所述运行指标异常时,获取该异常运行指标对应的错误对象;/n获取所述错误对象所涉及业务的业务链集;/n根据所述异常的运行指标对应的故障节点判断机制从所述业务链集中获取多个节点;/n从所述多个节点中选取出现次数超过预定阈值的节点作为故障节点。/n

【技术特征摘要】
1.一种业务系统的故障分析方法,其特征在于,所述故障分析方法包括:
获取业务运行过程中的运行指标;
当所述运行指标异常时,获取该异常运行指标对应的错误对象;
获取所述错误对象所涉及业务的业务链集;
根据所述异常的运行指标对应的故障节点判断机制从所述业务链集中获取多个节点;
从所述多个节点中选取出现次数超过预定阈值的节点作为故障节点。


2.如权利要求1所述的故障分析方法,其特征在于,所述运行指标包括:业务成功率、响应时间。


3.如权利要求1所述的故障分析方法,其特征在于,获取所述错误对象所涉及业务的业务链集包括:
获取所述错误对象所涉及业务的标识信息;
根据所述标识信息获取所述错误对象所涉及业务的业务链,并汇总得到所述业务链集。


4.如权利要求2所述的故障分析方法,其特征在于,当所述运行指标异常时,获取该异常运行指标对应的错误对象包括:
当所述业务成功率异常时,获取数量增长超过第一阈值的错误码对象作为错误对象。


5.如权利要求4所述的故障分析方法,其特征在于,根据所述异常的运行指标对应的故障节点判断机制获取所述业务链集中的多个节点包括:
将所述业务链集中每一条业务链上的最后一个报错节点作为所述多个节点中的一个。


6.如权利要求4所述的故障分析方法,其特征在于,当所述运行指标异常时,获取该异常运行指标对应的错误对象还包括:
当所述响应时间异常时,获取响应时间增长超过第二阈值的业务对象作为错误对象。


7.如权利要求6所述的故障分析方法,其特征在于,根据所述异常的运行指标对应的故障节点判断机制获取所述业务链集中的多个节点还包括:
将所述业务链集中每一条业务链上处理时间变化最大的节点作为所述多个节点中的一个。


8.如权利要求1-7中任一项所述的故障分析方法,其特征在于,所述故障节点诊断方法还包括:
获取所述故障节点的多维度的关联配置对象。


9.如权利要求8所述的故障分析方法,其特征在于,所述多维度的关联配置对象包括以下至少一种:应用维度的关联配置对象、平台维度的关联配置对象、网络维度的关联配置对象、存储维度的关联配置对象、主机系统维度的关联配置对象。


10.如权利要求9所述的故障分析方法,其特征在于,所述故障节点诊断方法还包括:
根据所述故障节点的多维度的关联配置对象对应的特征指标数据定位故障原因。


11.如权利要求10所述的故障分析方法,其特征在于,根据所述故障节点的多维度的关联配置对象对应的特征指标数据定位故障原因,包括:
过滤和汇总所述多维度的关联配置对象的变更信息、告警信息、用户访问信息;
根据所述特征指标数据对应的健康检查信息和异常检测信息获取所述特征指标数据的异常程度和异常形态;
根据所述特征指标数据的异常程度,以及所述特征指标数据的异常形态与所述运行指标异常的形态之间的相似程度,为所述特征指标数据分配权重;
确定所述特征指标数据之间的追溯关系;
输出所述过滤和汇总后的多维度的关联配置对象的变更信息、告警信息、用户访问信息,以及按照所述特征指标数据的权重和所述追溯关系推荐对应的配置对象及特征指标作为故障原因。


12.一种业务系统的故障分析系统,其特征在于,所述故障分析系统包括:
运行指标获取模块,用于获取业务运行过程中的运行指标;
错误对象获取模块,用于当所述运行指标异常时,获取该异常运行指标对应的错误对象;
业务链集获取模块,用于获取所述错误对象所涉及业务的业务链集;...

【专利技术属性】
技术研发人员:段国强郝丽萍王艳华谢朝杰李世宁杜旭范宏伟王欣张明王士强李琪韩广乐
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1