【技术实现步骤摘要】
存储系统中的故障诊断方法及装置
本专利技术涉及计算机
,尤其涉及一种存储系统中的故障诊断方法及装置。
技术介绍
随着计算机技术的发展,越来越多的应用场景中需要进行大量数据的存储,例如,视频监控应用场景中,需要存储大量视频监控数据,以便于后续对监控目标实施连续追踪。应当理解,仅使用一台服务器进行数据存储根本无法存储大量的数据,这就需要多台服务器共同执行数据存储,从而形成了所谓的存储系统。由上可知,存储系统的性能和稳定程度将直接影响所存储数据的可靠性,目前,存储系统发生故障时,主要依赖于系统管理员根据经验进行故障诊断,并以此修复故障。一方面,由系统管理员进行故障诊断,费时费力,需要花费较大的人力成本,另一方面,依赖于系统管理员的故障诊断的准确度难以保证。因此,现有技术中因存储系统中的故障诊断依赖于人工实现,仍存在无法保证准确度的局限性。
技术实现思路
为了解决上述技术问题,本专利技术的一个目的在于提供一种存储系统中的故障诊断方法及装置。其中,本专利技术所采用的技术方案为:一种存储系统中的故障诊断方法,所述存储系统包括至少一主控节点和多个存储节点,包括:所述主控节点通过对所述存储系统中存储节点的运行状态进行监控,获取系统状态集合;调用故障诊断模型对所述系统状态集合进行故障诊断,得到操作指令序列,所述故障诊断模型是通过所述存储系统已修复故障相关的系统状态集合和操作指令序列进行模型训练生成的;根据所述操作指令序列中的操作指令进行所述系统状态集合所描述故障的修复。一种存储系统中的故障诊断装置,所述存储系统包括至少一主控节点和多个存储节点,包括:状态集合获取模块,用于 ...
【技术保护点】
1.一种存储系统中的故障诊断方法,所述存储系统包括至少一主控节点和多个存储节点,其特征在于,包括:所述主控节点通过对所述存储系统中存储节点的运行状态进行监控,获取系统状态集合;调用故障诊断模型对所述系统状态集合进行故障诊断,得到操作指令序列,所述故障诊断模型是通过所述存储系统已修复故障相关的系统状态集合和操作指令序列进行模型训练生成的;根据所述操作指令序列中的操作指令进行所述系统状态集合所描述故障的修复。
【技术特征摘要】
1.一种存储系统中的故障诊断方法,所述存储系统包括至少一主控节点和多个存储节点,其特征在于,包括:所述主控节点通过对所述存储系统中存储节点的运行状态进行监控,获取系统状态集合;调用故障诊断模型对所述系统状态集合进行故障诊断,得到操作指令序列,所述故障诊断模型是通过所述存储系统已修复故障相关的系统状态集合和操作指令序列进行模型训练生成的;根据所述操作指令序列中的操作指令进行所述系统状态集合所描述故障的修复。2.如权利要求1所述的方法,其特征在于,所述主控节点通过对所述存储系统中存储节点的运行状态进行监控,获取系统状态集合,包括:通过所述监控,获取监控时间段内所述存储系统中存储节点的运行状态数据;处理所述运行状态数据得到所述系统状态集合。3.如权利要求1所述的方法,其特征在于,所述方法还包括:针对所述存储系统已修复故障,获取用于描述所述已修复故障的系统状态集合和用于修复所述已修复故障的操作指令序列;通过所述存储系统已修复故障相关的系统状态集合和操作指令序列构造训练特征向量;根据所述训练特征向量对指定模型进行模型训练,得到所述故障诊断模型。4.如权利要求3所述的方法,其特征在于,所述通过所述存储系统已修复故障相关的系统状态集合和操作指令序列构造训练特征向量,包括:进行所述操作指令序列的有效性检测,所述操作指令序列有效表示所述操作指令序列中的操作指令成功修复了所述已修复故障;将所述系统状态集合、操作指令序列、检测结果拼接得到所述训练特征向量。5.如权利要求4所述的方法,其特征在于,所述进行所述操作指令序列的有效性检测,包括:当所述操作指令序列中的操作指令完成所述已修复故障的修复时,通过对所述存储系统中存储节点的运行状态进行监控,得到系统修复状态集合;进行所述系统状态集合与系统修复状态集合之间的比较,通过所述比较检测所述操作指令序列的有效性。6.如权利要求5所述的方法,其特征在于,所述当所述操作指令序列中的操作指令完成所述已修复故障的修复时,通过对所述存储系统中存储节点的运行状态进行监控,得到系统修复状态集合,包括:确定修复所述已修复故障的修复时间,根据所述修复时间计算监控时间段;通过所述监控,获取所述监控时间段内所述存储系统中存储节点的运行状态数据;处理所述运行状态数据得到所述系统修复状态集合。7.如权利要求5或6所述的方法,其特征在于,所述进行所述系统状态集合与系统修复状态集合之间的比较,通过所述比较检测所述操作指令序列的有效性,包括:分别将所述系统状态集合中的修复前状态值与所述系统修复状态集合中的修复后状态值进行比较,得到比较结果,所述比较结果用于指示所述已修复故障完成修复后所述存储系统是否得到改善;根据所述比较结果的指示计算系统改善率和系统恶化率;如果所述系统改善率和系统恶化率满足指定标准,则检测得到所述操作指令序列有效。8.一种存储系统中的故障诊断装置,所述存储系统包括至少一主控节点和多个存储节点,其特征在于,包括:状态集合获取模...
【专利技术属性】
技术研发人员:陈静,
申请(专利权)人:腾讯科技深圳有限公司,腾讯云计算北京有限责任公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。