一种故障诊断方法、装置、设备及可读存储介质制造方法及图纸

技术编号:30974744 阅读:12 留言:0更新日期:2021-11-25 21:00
本申请公开了一种故障诊断方法、装置、设备及可读存储介质,方法包括:获取待监控服务器中的RAID卡的各日志文件;根据故障诊断规则库及RAID卡的各日志文件确定RAID卡及其管理的硬盘是否存在故障,并在确定存在故障时利用故障诊断规则库给出故障处理方案;故障诊断规则库为通过预先对RAID卡及其管理的硬盘的历史故障进行分析创建的;输出确定RAID卡和/或管理的硬盘存在故障的日志文件及故障处理方案。本申请公开的上述技术方案,借助预先创建的故障诊断规则库对待监控服务器中的RAID卡及其管理的硬盘进行故障诊断并给出故障处理方案,以便于及时对故障进行处理,从而降低服务器发生数据丢失和宕机的概率。务器发生数据丢失和宕机的概率。务器发生数据丢失和宕机的概率。

【技术实现步骤摘要】
一种故障诊断方法、装置、设备及可读存储介质


[0001]本申请涉及服务器
,更具体地说,涉及一种故障诊断方法、装置、设备及可读存储介质。

技术介绍

[0002]目前,随着RAID(Redundant Arrays of Independent Disks,磁盘阵列)和硬盘种类的增多,RAID对硬盘的管理模式也比较多,在RAID管理模式下,服务器是不能直接感知硬盘的状态是否正常,而RAID故障或硬盘故障会导致服务器发生数据丢失、宕机等问题。
[0003]综上所述,如何对RAID和硬盘进行故障诊断,以便于及时对故障进行处理,从而降低服务器发生数据丢失和宕机的概率,是目前本领域技术人员亟待解决的技术问题。

技术实现思路

[0004]有鉴于此,本申请的目的是提供一种故障诊断方法、装置、设备及可读存储介质,用于对RAID和硬盘进行故障诊断,以便于及时对故障进行处理,从而降低服务器发生数据丢失和宕机的概率。
[0005]为了实现上述目的,本申请提供如下技术方案:一种故障诊断方法,包括:获取待监控服务器中的RAID卡的各日志文件;根据故障诊断规则库及所述RAID卡的各日志文件确定所述RAID卡及其管理的硬盘是否存在故障,并在确定所述RAID卡和/或管理的硬盘存在故障时利用所述故障诊断规则库给出故障处理方案;所述故障诊断规则库为通过预先对RAID卡及其管理的硬盘的历史故障进行分析创建的;输出确定所述RAID卡和/或管理的硬盘存在故障的日志文件及所述故障处理方案。
[0006]优选的,根据故障诊断规则库及所述RAID卡的各日志文件确定所述RAID卡及其管理的硬盘是否存在故障,并在确定所述RAID卡和/或管理的硬盘存在故障时利用所述故障诊断规则库给出故障处理方案,包括:将所述RAID卡的各日志文件与所述故障诊断规则库对比,判断所述故障诊断规则库中是否存在与所述RAID卡的当前日志文件相匹配的目标文件;若存在所述目标文件,则将所述目标文件对应的各诊断关键字与所述当前日志文件中的每一行内容进行匹配;若所述当前日志文件中存在能够与各所述诊断关键字相匹配的至少一行内容,则确定所述RAID卡和/或管理的硬盘存在故障;判断所述故障诊断规则库中是否存在与所述目标文件对应的故障诊断方法,若存在与所述目标文件对应的故障诊断方法,则利用所述故障诊断方法对所述当前日志文件进行诊断,以给出所述故障处理方案。
[0007]优选的,利用所述故障诊断方法对所述当前日志文件进行诊断,以给出所述故障处理方案,包括:按照第一预设正则表达式从所述当前日志文件中提取第一槽位号;从所述当前日志文件中查找出所述第一槽位号对应的最新信息;若所述最新信息包含异常信息,则给出更换所述第一槽位号上的硬盘的故障处理方案;若所述最新信息包含正常信息,则从所述当前日志文件中过滤所述最新信息;若所述最新信息不包含所述异常信息和所述正常信息,则给出所述第一槽位号上的硬盘故障、建议提交工单并将对应的故障问题提升至二线的故障处理方案。
[0008]优选的,利用所述故障诊断方法对所述当前日志文件进行诊断,以给出所述故障处理方案,包括:按照第二预设正则表达式从所述当前日志文件中提取第二槽位号,按照第三预设正则表达式从所述当前日志文件中提取所述第二槽位号对应的错误数;若所述错误数大于1,则给出建议按照RAID卡、背板、SAS线缆顺序逐个更换的故障处理方案;若所述错误数等于1,则给出更换所述第二槽位号上的硬盘的故障处理方案。
[0009]优选的,利用所述故障诊断方法对所述当前日志文件进行诊断,以给出所述故障处理方案,包括:从所述故障诊断规则库中提取与所述目标文件对应的最后一个关键字,并从所述当前日志文件中提取与所述最后一个关键字对应的数值;若所述数值等于0,则从所述当前日志文件中过滤所述数值所在行的内容;若所述数值大于0,则从所述当前日志文件中提取序列号,并按照第四预设正则表达式循环遍历所述当前日志文件,若所述当前日志文件中存在能匹配到所述第四预设正则表达式的一行内容,则从能匹配到所述第四预设正则表达式的一行内容向前查找能匹配到第五预设正则表达式的内容,并从匹配到所述第五预设正则表达式的内容中提取第三槽位号;若所述故障诊断规则库中的所述诊断关键字中包含hwErrors、mediumErrors、smartWarning中的任意一个,则给出更换所述第三槽位号、所述序列号对应的硬盘的故障处理方案;若所述故障诊断规则库中的所述诊断关键字中不包含hwErrors、mediumErrors、smartWarning中的任意一个,则获取所述最后一个关键字对应的所述数值大于0的个数;若所述个数等于1,则给出更换所述第三槽位号、所述序列号对应的硬盘的故障处理方案;若所述个数大于1,则给出考虑链路问题,建议按照RAID卡、背板、SAS线缆顺序逐个更换的故障处理方案。
[0010]优选的,还包括:若所述故障诊断规则库中不存在与所述RAID卡的当前日志文件相匹配的目标文件,或所述故障诊断规则库中存在与所述RAID卡的当前日志文件相匹配的目标文件且若所述当前日志文件中不存在能够与各所述诊断关键字相匹配的至少一行内容,则从所述当前
日志文件中提取状态信息;根据所述状态信息构建日志训练集,利用Relief过滤式选择算法从所述日志训练集中选择样本,从和所述样本同类的样本中寻找猜中近邻样本,从和所述样本不同类的样本中随机选择一个猜错近邻样本,若所述样本和所述猜中近邻样本在特征上的距离小于所述样本和所述猜错近邻样本在同样特征上的距离,则增加所述特征的权重,若所述样本和所述猜中近邻样本在所述特征上的距离不小于所述样本和所述猜错近邻样本在同样特征上的距离,则减小所述特征的权重,对所述特征经过预设次数训练,并获取所述特征经过所述预设次数训练后的平均权重;将所述平均权重大于预设值的特征加入特征集,并输出所述特征集;接收对所述特征集的分析结果,并将所述特征集的分析结果加入所述故障诊断规则库中。
[0011]优选的,输出确定所述RAID卡和/或管理的硬盘存在故障的日志文件及所述故障处理方案,包括:将确定所述RAID卡和/或管理的硬盘存在故障的日志文件及所述故障处理方案通过邮件和/或短信输出至移动终端。
[0012]一种故障诊断装置,包括:获取模块,用于获取待监控服务器中的RAID卡的各日志文件;确定模块,用于根据故障诊断规则库及所述RAID卡的各日志文件确定所述RAID卡及其管理的硬盘是否存在故障,并在确定所述RAID卡和/或管理的硬盘存在故障时利用所述故障诊断规则库给出故障处理方案;所述故障诊断规则库为通过预先对RAID卡及其管理的硬盘的历史故障进行分析创建的;输出模块,用于输出确定所述RAID卡和/或管理的硬盘存在故障的日志文件及所述故障处理方案。
[0013]一种故障诊断设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述任一项所述的故障诊断方法的步骤。
[0014]一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障诊断方法,其特征在于,包括:获取待监控服务器中的RAID卡的各日志文件;根据故障诊断规则库及所述RAID卡的各日志文件确定所述RAID卡及其管理的硬盘是否存在故障,并在确定所述RAID卡和/或管理的硬盘存在故障时利用所述故障诊断规则库给出故障处理方案;所述故障诊断规则库为通过预先对RAID卡及其管理的硬盘的历史故障进行分析创建的;输出确定所述RAID卡和/或管理的硬盘存在故障的日志文件及所述故障处理方案。2.根据权利要求1所述的故障诊断方法,其特征在于,根据故障诊断规则库及所述RAID卡的各日志文件确定所述RAID卡及其管理的硬盘是否存在故障,并在确定所述RAID卡和/或管理的硬盘存在故障时利用所述故障诊断规则库给出故障处理方案,包括:将所述RAID卡的各日志文件与所述故障诊断规则库对比,判断所述故障诊断规则库中是否存在与所述RAID卡的当前日志文件相匹配的目标文件;若存在所述目标文件,则将所述目标文件对应的各诊断关键字与所述当前日志文件中的每一行内容进行匹配;若所述当前日志文件中存在能够与各所述诊断关键字相匹配的至少一行内容,则确定所述RAID卡和/或管理的硬盘存在故障;判断所述故障诊断规则库中是否存在与所述目标文件对应的故障诊断方法,若存在与所述目标文件对应的故障诊断方法,则利用所述故障诊断方法对所述当前日志文件进行诊断,以给出所述故障处理方案。3.根据权利要求2所述的故障诊断方法,其特征在于,利用所述故障诊断方法对所述当前日志文件进行诊断,以给出所述故障处理方案,包括:按照第一预设正则表达式从所述当前日志文件中提取第一槽位号;从所述当前日志文件中查找出所述第一槽位号对应的最新信息;若所述最新信息包含异常信息,则给出更换所述第一槽位号上的硬盘的故障处理方案;若所述最新信息包含正常信息,则从所述当前日志文件中过滤所述最新信息;若所述最新信息不包含所述异常信息和所述正常信息,则给出所述第一槽位号上的硬盘故障、建议提交工单并将对应的故障问题提升至二线的故障处理方案。4.根据权利要求2所述的故障诊断方法,其特征在于,利用所述故障诊断方法对所述当前日志文件进行诊断,以给出所述故障处理方案,包括:按照第二预设正则表达式从所述当前日志文件中提取第二槽位号,按照第三预设正则表达式从所述当前日志文件中提取所述第二槽位号对应的错误数;若所述错误数大于1,则给出建议按照RAID卡、背板、SAS线缆顺序逐个更换的故障处理方案;若所述错误数等于1,则给出更换所述第二槽位号上的硬盘的故障处理方案。5.根据权利要求2所述的故障诊断方法,其特征在于,利用所述故障诊断方法对所述当前日志文件进行诊断,以给出所述故障处理方案,包括:从所述故障诊断规则库中提取与所述目标文件对应的最后一个关键字,并从所述当前日志文件中提取与所述最后一个关键字对应的数值;
若所述数值等于0,则从所述当前日志文件中过滤所述数值所在行的内容;若所述数值大于0,则从所述当前日志文件中提取序列号,并按照第四预设正则表达式循环遍历所述当前日志文件,若所述当前日志文件中存在能匹配到所述第四预设正则表达式的一行内容,则从能匹配到所述第四预设正则表...

【专利技术属性】
技术研发人员:孔涛
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1