存储系统中的故障诊断方法及装置制造方法及图纸

技术编号:18553442 阅读:51 留言:0更新日期:2018-07-28 10:39
本发明专利技术涉及了一种存储系统中的故障诊断方法及装置,所述存储系统中的故障诊断方法包括:所述主控节点通过对所述存储系统中存储节点的运行状态进行监控,获取系统状态集合;调用故障诊断模型对所述系统状态集合进行故障诊断,得到操作指令序列,所述故障诊断模型是通过所述存储系统已修复故障相关的系统状态集合和操作指令序列进行模型训练生成的;根据所述操作指令序列中的操作指令进行所述系统状态集合所描述故障的修复。采用本发明专利技术所提供的存储系统中的故障诊断方法及装置解决了现有技术中因存储系统中的故障诊断依赖于人工实现而无法保证准确度的问题。

【技术实现步骤摘要】
存储系统中的故障诊断方法及装置
本专利技术涉及计算机
,尤其涉及一种存储系统中的故障诊断方法及装置。
技术介绍
随着计算机技术的发展,越来越多的应用场景中需要进行大量数据的存储,例如,视频监控应用场景中,需要存储大量视频监控数据,以便于后续对监控目标实施连续追踪。应当理解,仅使用一台服务器进行数据存储根本无法存储大量的数据,这就需要多台服务器共同执行数据存储,从而形成了所谓的存储系统。由上可知,存储系统的性能和稳定程度将直接影响所存储数据的可靠性,目前,存储系统发生故障时,主要依赖于系统管理员根据经验进行故障诊断,并以此修复故障。一方面,由系统管理员进行故障诊断,费时费力,需要花费较大的人力成本,另一方面,依赖于系统管理员的故障诊断的准确度难以保证。因此,现有技术中因存储系统中的故障诊断依赖于人工实现,仍存在无法保证准确度的局限性。
技术实现思路
为了解决上述技术问题,本专利技术的一个目的在于提供一种存储系统中的故障诊断方法及装置。其中,本专利技术所采用的技术方案为:一种存储系统中的故障诊断方法,所述存储系统包括至少一主控节点和多个存储节点,包括:所述主控节点通过对所述存储系统中存储节点的运行状态进行监控,获取系统状态集合;调用故障诊断模型对所述系统状态集合进行故障诊断,得到操作指令序列,所述故障诊断模型是通过所述存储系统已修复故障相关的系统状态集合和操作指令序列进行模型训练生成的;根据所述操作指令序列中的操作指令进行所述系统状态集合所描述故障的修复。一种存储系统中的故障诊断装置,所述存储系统包括至少一主控节点和多个存储节点,包括:状态集合获取模块,用于所述主控节点通过对所述存储系统中存储节点的运行状态进行监控,获取系统状态集合;指令序列获取模块,用于调用故障诊断模型对所述系统状态集合进行故障诊断,得到操作指令序列,所述故障诊断模型是通过所述存储系统已修复故障相关的系统状态集合和操作指令序列进行模型训练生成的;故障修复模块,用于根据所述操作指令序列中的操作指令进行所述系统状态集合所描述故障的修复。一种存储系统中的故障诊断装置,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的存储系统中的故障诊断方法。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的存储系统中的故障诊断方法。在上述技术方案中,存储系统中的主控节点通过对存储系统中存储节点的运行状态进行监控获得系统状态集合,并调用故障诊断模型对该系统状态集合进行故障诊断得到操作指令序列,进而根据操作指令序列中的操作指令进行系统状态所描述故障的修复,也就是说,对于系统状态所描述的故障来说,是通过故障诊断模型根据系统状态集合所得到的操作指令序列进行修复的,避免依赖于人工实现,从而解决了现有技术中因存储系统中的故障诊断依赖于人工实现而无法保证准确度的问题。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并于说明书一起用于解释本专利技术的原理。图1是根据本专利技术所涉及的实施环境的示意图。图2是根据一示例性实施例示出的一种服务器的硬件结构框图。图3是根据一示例性实施例示出的一种存储系统中的故障诊断方法的流程图。图4是根据一示例性实施例示出的另一种存储系统中的故障诊断方法的流程图。图5是图3对应实施例中步骤310在一个实施例的流程图。图6是图4对应实施例中步骤450在一个实施例的流程图。图7是图6对应实施例中步骤451在一个实施例的流程图。图8是图7对应实施例中步骤4511在一个实施例的流程图。图9是图7对应实施例中步骤4513在一个实施例的流程图。图10是一应用场景中一种存储系统中的故障诊断方法的具体实现示意图。图11是根据一示例性实施例示出的一种存储系统中的故障诊断装置的框图。图12是图11对应实施例中状态集合获取模块710在一个实施例的框图。图13是根据一示例性实施例示出的另一种存储系统中的故障诊断装置的框图。图14是图13对应实施例中特征向量构造模块850在一个实施例的框图。图15是图14对应实施例中有效性检测单元851在一个实施例的框图。图16是图15对应实施例中修复状态集合获取子单元8511在一个实施例的框图。图17是图15对应实施例中比较子单元8513在一个实施例的框图。通过上述附图,已示出本专利技术明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限制本专利技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本专利技术的概念。具体实施方式这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。如前所述,存储系统中的故障诊断因依赖于人工实现,仍存在无法保证准确度的局限性。具体而言,当存储系统发生故障时,会生成相应的告警信息,以向系统管理员提示存储系统发生故障,系统管理员将基于该告警信息查看存储系统相关的帮助文档,进而基于该帮助文档所提供的操作指令进行故障修复操作。其中,帮助文档由存储厂商提供,是基于测试环境中的合理推测形成的,缺少与实际应用环境的结合,势必存在实际应用环境中需要对帮助文档所提供的操作指令进行适当调整的情况。也就是说,由于帮助文档并不会随着系统管理员经验的丰富而相应地增强,使得故障诊断时还将依赖于系统管理员的经验,导致故障诊断费时费力,需要花费较大的人力成本。此外,故障诊断还有可能受到人为因素的影响,例如,系统管理员的情绪、身体状态等等,进而导致故障诊断的准确度难以保证。为此,避免因依赖于人工实现而难以保证存储系统中故障诊断的准确度,本专利技术特提出了一种存储系统中的故障诊断方法,该种存储系统中的故障诊断方法由计算机程序实现,与之相对应的,所构建的存储系统中的故障诊断装置可存储于架构有冯诺依曼体系的电子设备中,以在该电子设备中执行,进而实现存储系统中的故障诊断方法。例如,电子设备可以是服务器。图1为一种存储系统中的故障诊断方法所涉及的实施环境的示意图。该实施环境包括由若干服务器组成的存储系统100,即存储系统100可视为服务器集群。其中,多台服务器作为存储节点110,用于存储系统100中所有数据的存储,并根据所存储的数据向用户提供数据迁移、数据复制、数据恢复、数据回填等服务。至少一台服务器作为主控节点130,用于监控存储系统100的系统状态,即根据存储节点110提供的相关监控信息监控存储系统100中的各存储节点110。例如,假设监控信息包括存储节点110的运行状态数据,则对存储节点110的运行状态进行监控。图2是根据一示例性实施例示出的一种服务器的硬件结构框图。需要说明的是,该服务器只是一个适配于本专利技术的示例,不能认为是提供了对本专利技术的使用范围的任何限制。该服务器也不能解释为需要依赖于或者必须具有图2中示出的示例性的服务器200中的一个或者多个组件。该服务器200的硬件结构可因配置或者本文档来自技高网...

【技术保护点】
1.一种存储系统中的故障诊断方法,所述存储系统包括至少一主控节点和多个存储节点,其特征在于,包括:所述主控节点通过对所述存储系统中存储节点的运行状态进行监控,获取系统状态集合;调用故障诊断模型对所述系统状态集合进行故障诊断,得到操作指令序列,所述故障诊断模型是通过所述存储系统已修复故障相关的系统状态集合和操作指令序列进行模型训练生成的;根据所述操作指令序列中的操作指令进行所述系统状态集合所描述故障的修复。

【技术特征摘要】
1.一种存储系统中的故障诊断方法,所述存储系统包括至少一主控节点和多个存储节点,其特征在于,包括:所述主控节点通过对所述存储系统中存储节点的运行状态进行监控,获取系统状态集合;调用故障诊断模型对所述系统状态集合进行故障诊断,得到操作指令序列,所述故障诊断模型是通过所述存储系统已修复故障相关的系统状态集合和操作指令序列进行模型训练生成的;根据所述操作指令序列中的操作指令进行所述系统状态集合所描述故障的修复。2.如权利要求1所述的方法,其特征在于,所述主控节点通过对所述存储系统中存储节点的运行状态进行监控,获取系统状态集合,包括:通过所述监控,获取监控时间段内所述存储系统中存储节点的运行状态数据;处理所述运行状态数据得到所述系统状态集合。3.如权利要求1所述的方法,其特征在于,所述方法还包括:针对所述存储系统已修复故障,获取用于描述所述已修复故障的系统状态集合和用于修复所述已修复故障的操作指令序列;通过所述存储系统已修复故障相关的系统状态集合和操作指令序列构造训练特征向量;根据所述训练特征向量对指定模型进行模型训练,得到所述故障诊断模型。4.如权利要求3所述的方法,其特征在于,所述通过所述存储系统已修复故障相关的系统状态集合和操作指令序列构造训练特征向量,包括:进行所述操作指令序列的有效性检测,所述操作指令序列有效表示所述操作指令序列中的操作指令成功修复了所述已修复故障;将所述系统状态集合、操作指令序列、检测结果拼接得到所述训练特征向量。5.如权利要求4所述的方法,其特征在于,所述进行所述操作指令序列的有效性检测,包括:当所述操作指令序列中的操作指令完成所述已修复故障的修复时,通过对所述存储系统中存储节点的运行状态进行监控,得到系统修复状态集合;进行所述系统状态集合与系统修复状态集合之间的比较,通过所述比较检测所述操作指令序列的有效性。6.如权利要求5所述的方法,其特征在于,所述当所述操作指令序列中的操作指令完成所述已修复故障的修复时,通过对所述存储系统中存储节点的运行状态进行监控,得到系统修复状态集合,包括:确定修复所述已修复故障的修复时间,根据所述修复时间计算监控时间段;通过所述监控,获取所述监控时间段内所述存储系统中存储节点的运行状态数据;处理所述运行状态数据得到所述系统修复状态集合。7.如权利要求5或6所述的方法,其特征在于,所述进行所述系统状态集合与系统修复状态集合之间的比较,通过所述比较检测所述操作指令序列的有效性,包括:分别将所述系统状态集合中的修复前状态值与所述系统修复状态集合中的修复后状态值进行比较,得到比较结果,所述比较结果用于指示所述已修复故障完成修复后所述存储系统是否得到改善;根据所述比较结果的指示计算系统改善率和系统恶化率;如果所述系统改善率和系统恶化率满足指定标准,则检测得到所述操作指令序列有效。8.一种存储系统中的故障诊断装置,所述存储系统包括至少一主控节点和多个存储节点,其特征在于,包括:状态集合获取模...

【专利技术属性】
技术研发人员:陈静
申请(专利权)人:腾讯科技深圳有限公司腾讯云计算北京有限责任公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1