一种NVMe硬盘故障预警方法、系统和计算机设备技术方案

技术编号:34608893 阅读:10 留言:0更新日期:2022-08-20 09:13
本申请涉及一种NVMe硬盘故障预警方法、系统和计算机设备。所述方法包括:中央处理器获取NVMe硬盘状态信息,若所述NVMe硬盘状态信息异常,则所述中央处理器复位所述NVMe硬盘;复杂可编程逻辑器件发送所述NVMe硬盘状态信息及所述NVMe硬盘复位次数至基板管理控制器;若所述NVMe硬盘复位次数不小于第一预设值,则触发故障预警。可以实现基板管理控制器对NVMe硬盘运行参数和健康状况的实时监控,并且可以实现对NVMe硬盘故障的检测和预测,能够更好地评估NVMe硬盘作业风险,加快解决NVMe硬盘作业故障的效率,在降低人力物力消耗的前提下,能够有效实现整个系统的高可用性。有效实现整个系统的高可用性。有效实现整个系统的高可用性。

【技术实现步骤摘要】
一种NVMe硬盘故障预警方法、系统和计算机设备


[0001]本申请涉及硬件监测
,特别是涉及一种NVMe硬盘故障预警方法、系统和计算机设备。

技术介绍

[0002]随着云计算、数据中心的普及,服务器规模已经达到万级数量,NVMe硬盘的应用量更甚。NVMe硬盘虽然故障率较低,但是伴随着数量的增多,NVMe硬盘使用年限的增加,故障率也会随之增加,因此采用一种自动的故障预警方法对NVMe硬盘故障进行预测,以便及时更换即将损坏的NVMe硬盘对提高NVMe硬盘乃至整个系统的服务质量是非常有必要的。
[0003]现有技术中,NVMe硬盘只能依靠自动监测分析及报告技术记录NVMe硬盘信息,当故障发生后、系统启动时才会提示用户故障信息,无法提供自动预测功能,并且当NVMe硬盘规模较大,NVMe硬盘服务年限较长时,会给NVMe硬盘的服务质量造成不良影响,严重情况下甚至会导致数据丢失。为了降低因NVMe硬盘故障而造成的不良影响,就需要运维介入对NVMe硬盘运行状态进行实时监控,但是依靠人工维护会增加人力成本和时间成本。
[0004]因此,急需提出一种能够实时监测服务器NVMe硬盘的工作效能、在NVMe硬盘即将发生故障前进行故障预警的NVMe硬盘故障预警方法、系统和计算机设备。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够自动重新设置出链路端口的NVMe硬盘故障预警方法、装置、计算机设备和计算机设备。
[0006]一方面,提供一种NVMe硬盘故障预警方法,所述方法包括:中央处理器获取NVMe硬盘状态信息,若所述NVMe硬盘状态信息异常,则所述中央处理器复位所述NVMe硬盘,并获取所述NVMe硬盘复位次数;复杂可编程逻辑器件发送所述NVMe硬盘状态信息及所述NVMe硬盘复位次数至基板管理控制器;若所述NVMe硬盘复位次数不小于第一预设值,则触发故障预警。
[0007]进一步的,所述方法还包括:所述基板管理控制器获取所述NVMe硬盘异常状态信息,生成日志文件;基于所述日志文件及预设的异常状态信息类别,获取NVMe硬盘任一所述异常状态信息类别发生次数;若所述NVMe硬盘任一所述异常状态信息类别发生次数不小于第二预设值,则对应所述异常状态信息触发故障预警。
[0008]进一步的,所述触发故障预警前,所述方法还包括:检测VMD驱动是否处于可用状态;若所述VMD驱动处于可用状态,则所述中央处理器发送故障预警信号至所述复杂可编程逻辑器件,进行VPP故障预警;若所述VMD驱动处于不可用状态,则所述基板管理控制器发送故障预警信号至所述复杂可编程逻辑器件,进行基板管理控制器故障预警。
[0009]进一步的,进行VPP故障预警时,所述方法还包括:所述中央处理器通过VPP IIC发送故障预警信号至所述复杂可编程逻辑器件;所述复杂可编程逻辑器件解析所述故障预警信号,并将所述VMD驱动置为故障预警专用状态,进行VPP故障预警。
[0010]进一步的,所述方法还包括:基于所述NVMe硬盘,对应每一所述异常状态信息,设置若干个第三告警装置;若所述NVMe硬盘任一所述异常状态信息类别发生次数不小于第二预设值,则对应所述异常状态信息,触发所述第三告警装置发出故障预警。
[0011]进一步的,所述NVMe硬盘状态信息,包括:所述NVMe硬盘位置信息及所述NVMe硬盘工作状态信息;所述中央处理器复位所述NVMe硬盘,包括:监测所述NVMe硬盘工作状态信息是否异常,若所述NVMe硬盘工作状态信息异常,则所述中央处理器基于所述NVMe硬盘位置信息,复位所述NVMe硬盘。
[0012]进一步的,获取所述第一预设值包括:基于所述NVMe硬盘基本信息及所述NVMe硬盘故障信息,建立训练模型;基于所述训练模型,获取所述NVMe硬盘损坏前发生的故障预警次数;基于所述故障预警次数,获取所述第一预设值,所述第一预设值小于所述故障预警次数。
[0013]进一步的,所述进行故障预警包括:所述复杂可编程逻辑器件检测所述NVMe硬盘的在位状态信息,并将所述硬盘在位状态信息发送至所述基板管理控制器;所述基板管理控制器基于所述硬盘在位状态信息,发送故障预警信号至所述复杂可编程逻辑器件;所述复杂可编程逻辑器件解析所述故障预警信号,进行故障预警。
[0014]另一方面,提供了一种NVMe硬盘故障预警系统,所述系统包括:复杂可编程逻辑器件、基板管理控制器、中央处理器和NVMe硬盘;所述中央处理器与所述NVMe硬盘通信连接,以用于获取所述NVMe硬盘状态信息,若所述NVMe硬盘状态信息异常,还用于复位所述NVMe硬盘及获取所述NVMe硬盘复位次数,若所述NVMe硬盘复位次数不小于第一预设值,还用于触发故障预警;所述复杂可编程逻辑器件与所述NVMe硬盘通信连接,以用于获取所述NVMe硬盘状态信息及所述NVMe硬盘复位次数;所述基板管理控制器与所述复杂可编程逻辑器件通信连接,以用于接收所述复杂可编程逻辑器件发送的NVMe硬盘状态信息及所述NVMe硬盘复位次数,若所述NVMe硬盘复位次数不小于第一预设值,还用于触发故障预警。
[0015]进一步的,所述基板管理控制器还用于获取所述NVMe硬盘异常状态信息,生成日志文件,并基于所述日志文件及预设的异常状态信息类别,获取NVMe硬盘任一所述异常状态信息类别发生次数;若所述NVMe硬盘任一所述异常状态信息类别发生次数不小于第二预设值,还用于对应所述异常状态信息触发故障预警。
[0016]又一方面,提供了一种计算机可读计算机设备,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:中央处理器获取NVMe硬盘状态信息,若所述NVMe硬盘状态信息异常,则所述中央处理器复位所述NVMe硬盘,并获取所述NVMe硬盘复位次数;复杂可编程逻辑器件发送所述NVMe硬盘状态信息及所述NVMe硬盘复位次数至基板管理控制器;若所述NVMe硬盘复位次数不小于第一预设值,则触发故障预警。
[0017]上述NVMe硬盘故障预警方法、系统和计算机设备,中央处理器获取NVMe硬盘状态信息,若所述NVMe硬盘状态信息异常,则所述中央处理器复位所述NVMe硬盘,并获取所述NVMe硬盘复位次数;复杂可编程逻辑器件发送所述NVMe硬盘状态信息及所述NVMe硬盘复位次数至基板管理控制器;若所述NVMe硬盘复位次数不小于第一预设值,则触发故障预警。通过这种方式,可以实现基板管理控制器对NVMe硬盘运行参数和健康状况的实时监控,并且可以实现对NVMe硬盘故障的检测和预测,能够更好地评估NVMe硬盘作业风险,加快解决NVMe硬盘作业故障的效率,在降低人力物力消耗的前提下,能够有效实现整个系统的高可
用性。
附图说明
[0018]图1为一个实施例中NVMe硬盘故障预警方法的流程示意图;
[0019]图2为一个实施例中NVMe硬盘故障预警方法的流程示意图;
[0020]图3为一个实施例中NVMe硬盘故障预警系统的结构框图;
[0021]图4为一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种NVMe硬盘故障预警方法,其特征在于,所述方法包括:中央处理器获取NVMe硬盘状态信息,若所述NVMe硬盘状态信息异常,则所述中央处理器复位所述NVMe硬盘,并获取所述NVMe硬盘复位次数;复杂可编程逻辑器件发送所述NVMe硬盘状态信息及所述NVMe硬盘复位次数至基板管理控制器;若所述NVMe硬盘复位次数不小于第一预设值,则触发故障预警。2.根据权利要求1所述的NVMe硬盘故障预警方法,其特征在于,所述方法还包括:所述基板管理控制器获取所述NVMe硬盘异常状态信息,生成日志文件;基于所述日志文件及预设的异常状态信息类别,获取NVMe硬盘任一所述异常状态信息类别发生次数;若所述NVMe硬盘任一所述异常状态信息类别发生次数不小于第二预设值,则对应所述异常状态信息触发故障预警。3.根据权利要求1所述的NVMe硬盘故障预警方法,其特征在于,所述触发故障预警前,所述方法还包括:检测VMD驱动是否处于可用状态;若所述VMD驱动处于可用状态,则所述中央处理器发送故障预警信号至所述复杂可编程逻辑器件,进行VPP故障预警;若所述VMD驱动处于不可用状态,则所述基板管理控制器发送故障预警信号至所述复杂可编程逻辑器件,进行基板管理控制器故障预警。4.根据权利要求3所述的NVMe硬盘故障预警方法,其特征在于,进行VPP故障预警时,所述方法还包括:所述中央处理器通过VPP IIC发送故障预警信号至所述复杂可编程逻辑器件;所述复杂可编程逻辑器件解析所述故障预警信号,并将所述VMD驱动置为故障预警专用状态,进行VPP故障预警。5.根据权利要求2所述的NVMe硬盘故障预警方法,其特征在于,所述方法还包括:基于所述NVMe硬盘,对应每一所述异常状态信息类别,设置若干个第三告警装置;若所述NVMe硬盘任一所述异常状态信息类别发生次数不小于第二预设值,则对应所述异常状态信息,触发所述第三告警装置发出故障预警。6.根据权利要求1所述的NVMe硬盘故障预警方法,其特征在于,获取所述第一预设值包括:基于NV...

【专利技术属性】
技术研发人员:黄凯
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1