集群故障诊断方法、装置、设备和存储介质制造方法及图纸

技术编号:37152209 阅读:14 留言:0更新日期:2023-04-06 22:09
本申请提供一种集群故障诊断方法、装置、设备和存储介质,本申请中的方法包括:响应设备故障诊断请求,获取所述集群故障诊断请求对应的目标设备集群;驱动所述目标设备集群中的各集群设备向关联的分布存储模块进行检测交互,生成检测反馈信息;根据所述检测反馈信息中的存储负载数据和交互记录数据定位所述目标设备集群中的目标存储模块,以及所述目标存储模块关联的目标集群设备;获取所述目标存储模块关联的候选存储模块,驱动目标集群设备和所述候选存储模块进行数据交互,得到集群故障诊断结果。实现快速定位目标设备集群中的各集群设备以及关联的分布式存储模块的健康状态,提高集群故障诊断准确率。提高集群故障诊断准确率。提高集群故障诊断准确率。

【技术实现步骤摘要】
集群故障诊断方法、装置、设备和存储介质


[0001]本申请涉及物联网
,具体涉及一种集群故障诊断方法、装置、设备和存储介质。

技术介绍

[0002]目前,随着数字化技术的发展,许多企业均需通过部署各种业务系统来执行各种业务。现有的金融系统下存在各种子系统,不同子系统需要多个实体服务器或搭建虚拟服务器构成服务器集群共同运行来执行子系统的各项功能,而后端服务器依赖于各种分布式存储设备作为数据文件的存储介质,然而子系统在大规模发版,应用上下线,机房停机维护等场景下,由于缺乏有效的心跳机制,这些服务器跟分布式存储设备之间的连接情况是否健康,有个别服务器如果跟连接的存储介质之间的访问如果出现问题,这样的潜在问题将直接导致程序运行报错,导致出现异常问题,而现有的设备检测方法依赖人工进行逐个排查,无法快速准确地对异常设备及存储模块进行修复处理。

技术实现思路

[0003]本申请实施例提供一种集群故障诊断方法、装置、设备和存储介质,旨在解决现有技术中无法对业务系统中的异常设备及对应存储模块进行有效检查修复的技术问题。
[0004]一方面,本申请实施例提供一种集群故障诊断方法,所述集群故障诊断方法包括以下步骤:
[0005]响应设备故障诊断请求,获取所述集群故障诊断请求对应的目标设备集群;
[0006]驱动所述目标设备集群中的各集群设备向关联的分布存储模块进行检测交互,生成检测反馈信息;
[0007]根据所述检测反馈信息中的存储负载数据和交互记录数据定位所述目标设备集群中的目标存储模块,以及所述目标存储模块关联的目标集群设备;
[0008]获取所述目标存储模块关联的候选存储模块,驱动目标集群设备和所述候选存储模块进行数据交互,得到集群故障诊断结果。
[0009]在本申请一种可能的实现方式中,所述根据所述检测反馈信息中的存储负载数据和交互记录数据定位所述目标设备集群中的目标存储模块,以及所述目标存储模块关联的目标集群设备,包括:
[0010]获取所述分布存储模块的存储设备类型和所述集群设备的业务类型,查询所述存储设备类型和所述业务类型对应的预设负载阈值和预设交互阈值;
[0011]将所述检测反馈信息中的存储负载数据和所述预设负载阈值进行比较,以及将所述交互记录数据和所述预设交互阈值进行比较;
[0012]若所述存储负载数据大于所述预设负载阈值,和/或所述交互记录数据小于所述预设交互阈值,则确定所述分布存储模块为目标存储模块,并获取所述目标存储模块对应的目标集群设备。
[0013]在本申请一种可能的实现方式中,所述获取所述目标存储模块关联的候选存储模块,驱动目标集群设备和所述候选存储模块进行数据交互,得到集群故障诊断结果,包括:
[0014]读取所述目标存储模块对应的目标集群设备的业务类型和预设负载阈值;
[0015]查询存储数据库,根据所述业务类型和所述预设负载阈值匹配所述目标存储模块关联的候选存储模块;
[0016]获取所述目标集群设备的业务数据,将所述业务数据同步到所述候选存储模块进行数据交互,得到集群故障诊断结果。
[0017]在本申请一种可能的实现方式中,所述获取所述目标集群设备的业务数据,将所述业务数据同步到所述候选存储模块进行数据交互,得到集群故障诊断结果,包括:
[0018]获取所述目标集群设备的业务数据,将所述业务数据同步到所述候选存储模块,得到数据同步结果;
[0019]获取所述候选存储模块的运行状态,根据所述数据同步结果和所述运行状态确定目标集群设备和所述候选存储模块的设备连接状态,输出与所述设备连接状态对应的集群故障诊断结果。
[0020]在本申请一种可能的实现方式中,所述响应设备故障诊断请求,获取所述集群故障诊断请求对应的目标设备集群,包括:
[0021]响应所述设备故障诊断请求,获取所述设备故障诊断请求携带的设备信息,所述设备信息包括应用标识、设备环境信息、设备机房信息和存储空间标识中的至少一个;
[0022]访问预设的内容管理数据库,根据所述应用标识、所述设备环境信息、所述设备机房信息和所述存储空间标识,获取所述内容管理数据库中与所述设备信息关联的目标设备集群。
[0023]在本申请一种可能的实现方式中,所述获取所述目标存储模块关联的候选存储模块,驱动目标集群设备和所述候选存储模块进行数据交互,得到集群故障诊断结果之后,还包括:
[0024]汇总所述目标设备集群中的每一目标存储模块,以及所述目标存储模块的检测反馈信息;
[0025]根据所述目标存储模块的存储设备类型、业务类型和所述检测反馈信息生成所述目标存储模块的故障提醒消息,并输出所述故障提醒消息。
[0026]在本申请一种可能的实现方式中,所述驱动所述目标设备集群中的各集群设备向关联的分布存储模块进行检测交互,生成检测反馈信息,包括:
[0027]向所述目标设备集群中的各集群设备发送设备检测指令,驱动所述集群设备向所述分布存储模块进行检测交互;
[0028]获取所述分布存储模块的存储反馈信息,以及所述集群设备的设备反馈信息;
[0029]汇总所述存储反馈信息和所述设备反馈信息生成所述分布存储模块的检测反馈信息。
[0030]另一方面,本申请提供一种集群故障诊断装置,所述集群故障诊断装置包括:
[0031]指令获取模块,被配置为响应设备故障诊断请求,获取所述集群故障诊断请求对应的目标设备集群;
[0032]设备反馈模块,被配置为驱动所述目标设备集群中的各集群设备向关联的分布存
储模块进行检测交互,生成检测反馈信息;
[0033]连接检测模块,被配置为根据所述检测反馈信息中的存储负载数据和交互记录数据定位所述目标设备集群中的目标存储模块,以及所述目标存储模块关联的目标集群设备;
[0034]集群诊断模块,被配置为获取所述目标存储模块关联的候选存储模块,驱动目标集群设备和所述候选存储模块进行数据交互,得到集群故障诊断结果。
[0035]另一方面,本申请还提供一种集群故障诊断设备,所述集群故障诊断设备包括:
[0036]一个或多个处理器;
[0037]存储器;以及
[0038]一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现所述的集群故障诊断方法。
[0039]另一方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的集群故障诊断方法中的步骤。
[0040]本申请中通过响应设备故障诊断请求,获取所述集群故障诊断请求对应的目标设备集群;驱动所述目标设备集群中的各集群设备向关联的分布存储模块进行检测交互,生成检测反馈信息;根据所述检测反馈信息中的存储负载数据和交互记录数据定位所述目标设备集群中的目标存储模块,以及所述目标存储模块关联的目标集群设备;获取所述目标存储模块关联的候本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集群故障诊断方法,其特征在于,所述集群故障诊断方法包括:响应设备故障诊断请求,获取所述集群故障诊断请求对应的目标设备集群;驱动所述目标设备集群中的各集群设备向关联的分布存储模块进行检测交互,生成检测反馈信息;根据所述检测反馈信息中的存储负载数据和交互记录数据定位所述目标设备集群中的目标存储模块,以及所述目标存储模块关联的目标集群设备;获取所述目标存储模块关联的候选存储模块,驱动目标集群设备和所述候选存储模块进行数据交互,得到集群故障诊断结果。2.如权利要求1所述的集群故障诊断方法,其特征在于,所述根据所述检测反馈信息中的存储负载数据和交互记录数据定位所述目标设备集群中的目标存储模块,以及所述目标存储模块关联的目标集群设备,包括:获取所述分布存储模块的存储设备类型和所述集群设备的业务类型,查询所述存储设备类型和所述业务类型对应的预设负载阈值和预设交互阈值;将所述检测反馈信息中的存储负载数据和所述预设负载阈值进行比较,以及将所述交互记录数据和所述预设交互阈值进行比较;若所述存储负载数据大于所述预设负载阈值,和/或所述交互记录数据小于所述预设交互阈值,则确定所述分布存储模块为目标存储模块,并获取所述目标存储模块对应的目标集群设备。3.如权利要求1所述的集群故障诊断方法,其特征在于,所述获取所述目标存储模块关联的候选存储模块,驱动目标集群设备和所述候选存储模块进行数据交互,得到集群故障诊断结果,包括:读取所述目标存储模块对应的目标集群设备的业务类型和预设负载阈值;查询存储数据库,根据所述业务类型和所述预设负载阈值匹配所述目标存储模块关联的候选存储模块;获取所述目标集群设备的业务数据,将所述业务数据同步到所述候选存储模块进行数据交互,得到集群故障诊断结果。4.如权利要求3所述的集群故障诊断方法,其特征在于,所述获取所述目标集群设备的业务数据,将所述业务数据同步到所述候选存储模块进行数据交互,得到集群故障诊断结果,包括:获取所述目标集群设备的业务数据,将所述业务数据同步到所述候选存储模块,得到数据同步结果;获取所述候选存储模块的运行状态,根据所述数据同步结果和所述运行状态确定目标集群设备和所述候选存储模块的设备连接状态,输出与所述设备连接状态对应的集群故障诊断结果。5.如权利要求1所述的集群故障诊断方法,其特征在于,所述响应设备故障诊断请求,获取所述集群故障诊断请求对应的目标设备集群,包括:响应所述设备故障诊断请求,...

【专利技术属性】
技术研发人员:张春和
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1