一种故障定位方法、装置、系统及计算机可读存储介质制造方法及图纸

技术编号:37668314 阅读:13 留言:0更新日期:2023-05-26 04:28
本发明专利技术公开了一种故障定位方法,涉及计算机领域,应用于服务器中的BMC,主要用于当服务器与多个外接设备连接且发生故障时,判断是哪个外接设备发生故障,整个过程由BMC判断完成,不需要工作人员学习相关的技术知识或繁琐的操作流程,上手难度低,在确定了发生故障的外接设备后直接通过提示模块进行相应的提示,简单直观的定位出发生故障的外接设备,以便后续快速找出故障原因,节约时间,并且BMC是独立于服务器的系统,可以在服务器出现宕机或开不了机的情况下完成对发生故障的外接设备的定位,提高了服务器的可靠性和安全性。本发明专利技术还公开了一种故障定位装置、系统和计算机可读存储介质,具有与上述故障定位方法相同的有益效果。具有与上述故障定位方法相同的有益效果。具有与上述故障定位方法相同的有益效果。

【技术实现步骤摘要】
一种故障定位方法、装置、系统及计算机可读存储介质


[0001]本专利技术涉及计算机领域,特别是涉及一种故障定位方法。本专利技术还涉及一种故障定位装置、系统及计算机可读存储介质。

技术介绍

[0002]随着云计算,大数据和人工智能等领域的迅速发展,信息化与智能化逐渐覆盖到社会的各个领域,人们的日常生活也越来越多地通过网络进行交流,服务器作为存储及处理网络信息的高性能计算机,在当前网络时代占据着越来越重要的作用,随着用户需求的日益多样化,服务器也需要满足更多的功能,扩展外接设备,特别是扩展PCIE设备对于服务器的功能延伸以及用户的定制化需求有很重要的作用。但是一旦PCIE设备发生故障,服务器也会受其影响无法使用各种功能,甚至出现开机不显示或者宕机的情况,所以当PCIE设备发生故障时,工作人员需要快速地定位PCIE设备发生故障的位置,以便找出故障原因并及时的解决故障,保证服务器的正常运行。
[0003]现有技术中,主要有两种方法可以实现对PCIE设备的故障定位,第一种方法是通过断电或跳帽等方法清CMOS后上电开机,通过进入BIOS Setup查看PCIE设备的相关信息,通过这些信息定位PCIE设备故障对应的插槽位置;第二种方法是直接登录BMC Web,查看BMC日志中的相关信息来判断PCIE设备故障对应的插槽位置。这两种方法都需要工作人员对PCIE设备相关的信息进行分析判断,不能直接表现出PCIE设备故障的具体位置,并且这两种方法的操作步骤十分繁琐,需要进行查看日志,导出日志等一系列操作,同时需要操作的工作人员对BIOS,BMC以及跳帽等具备一定的技术知识,否则难以完成对BIOS Setup或BMC Web的一系列操作,第一种方法还需要进行开机操作,无法在服务器出现宕机或开不了机的情况下找到PCIE设备故障的具体位置。

技术实现思路

[0004]本专利技术的目的是提供一种故障定位方法、装置、系统和计算机可读存储介质,整个过程上手难度低,提示简单直观,以便后续快速找出故障原因,节约时间,整个过程由BMC判断完成,可以在服务器出现宕机或开不了机的情况下完成对发生故障的外接设备的定位,提高了服务器的可靠性和安全性。
[0005]为解决上述技术问题,本专利技术提供了一种故障定位方法,应用于服务器中的BMC,所述服务器与N个外接设备连接,N为大于零的正整数;该方法包括:
[0006]获取N个所述外接设备的设备信息;
[0007]基于所述设备信息判断是否存在所述外接设备发生故障;
[0008]若是,确定发生故障的外接设备,并控制提示模块执行相应的提示策略。
[0009]优选地,所述设备信息包括在位信息;
[0010]基于所述设备信息判断是否存在所述外接设备发生故障,包括:
[0011]基于所述在位信息判断是否存在所述外接设备不在位;
[0012]若是,则判定不在位的所述外接设备为发生故障的外接设备;
[0013]若否,则判定不存在所述外接设备发生故障。
[0014]优选地,所述设备信息包括硬件信息;
[0015]在判定不存在所述外接设备发生故障之前,还包括:
[0016]判断是否存在所述外接设备的所述硬件信息为异常值;
[0017]若是,则判定所述硬件信息为异常值的外接设备为发生故障的外接设备;
[0018]若否,则进入判定不存在所述外接设备发生故障的步骤。
[0019]优选地,所述硬件信息包括所述外接设备的传输速率;
[0020]判断是否存在所述外接设备的所述硬件信息为异常值,包括:
[0021]判断是否存在所述外接设备的传输速率不满足预设速率;
[0022]若是,则判定所述传输速率不满足所述预设速率的外接设备的所述硬件信息为异常值。
[0023]优选地,基于所述设备信息判断是否存在所述外接设备发生故障,包括:
[0024]基于所述设备信息按预设的优先级顺序依次判断各个所述外接设备是否发生故障。
[0025]优选地,所述提示模块包括与N个所述外接设备一一对应的N个提示子模块,控制提示模块执行相应的提示策略,包括:
[0026]控制与发生故障的所述外接设备对应的提示子模块执行相应的提示策略。
[0027]优选地,所述提示模块还包括总提示模块,存在所述外接设备发生故障之后,还包括:
[0028]控制所述总提示模块执行提示操作。
[0029]为解决上述技术问题,本专利技术还提供了一种故障定位装置,包括:
[0030]存储器,用于存储计算机程序;
[0031]处理器,用于执行所述计算机程序时实现如上述所述故障定位方法的步骤。
[0032]为解决上述技术问题,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述故障定位方法的步骤。
[0033]为解决上述技术问题,本专利技术还提供了一种故障定位系统,应用于服务器中的BMC,所述服务器与N个外接设备连接,N为大于零的正整数;该系统包括:
[0034]获取单元,用于获取N个外接设备的设备信息;
[0035]判断单元,用于基于所述设备信息判断是否存在所述外接设备发生故障,若是,触发确定单元;
[0036]所述确定单元,用于确定发生故障的外接设备,并控制提示模块执行相应的提示策略。
[0037]本专利技术提供了一种故障定位方法,应用于服务器中的BMC,主要用于当服务器与多个外接设备连接且发生故障时,判断是哪个外接设备发生故障,整个过程由BMC判断完成,不需要工作人员学习相关的技术知识或繁琐的操作流程,上手难度低,在确定了发生故障的外接设备后直接通过提示模块进行相应的提示,简单直观的定位出发生故障的外接设备,以便后续快速找出故障原因,节约时间,并且BMC是独立于服务器的系统,可以在服务器
System,操作系统)等等,BMC与服务器之间的交互方式主要是通过不同通信协议的通信接口实现,也可以为其他交互方式,对于BMC与服务器之间的交互方式本申请在此不做特别的限定。
[0051]一般地,BMC会通过IPMI(Intelligent Platform Management Interface,智能型平台管理接口)从BIOS中获取到外接设备的设备信息,BMC与IPMI是服务器的基本核心功能子系统,负责服务器的硬件状态管理、操作系统管理、健康状态管理、功耗管理等核心功能。IPMI是一组交互标准管理规范,主要可以用于服务器系统集群自治,监视服务器的物理健康特征,如温度、电压、风扇工作状态、电源状态等。同时,IPMI还负责记录各种硬件的信息和日志记录,用于提示用户和后续问题的定位。IPMI是独立于服务器的主机系统之外的可独立运行的板上部件,BMC与主机系统以及其他组件的信息交互,都可以经由IPMI来完成。具体地,BMC通过IPMI从BIOS中获取的外接设备的设备信息是BIOS在自检过程中存储的外接设备的设备信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障定位方法,其特征在于,应用于服务器中的BMC,所述服务器与N个外接设备连接,N为大于零的正整数;该方法包括:获取N个所述外接设备的设备信息;基于所述设备信息判断是否存在所述外接设备发生故障;若是,确定发生故障的外接设备,并控制提示模块执行相应的提示策略。2.如权利要求1所述的故障定位方法,其特征在于,所述设备信息包括在位信息;基于所述设备信息判断是否存在所述外接设备发生故障,包括:基于所述在位信息判断是否存在所述外接设备不在位;若是,则判定不在位的所述外接设备为发生故障的外接设备;若否,则判定不存在所述外接设备发生故障。3.如权利要求2所述的故障定位方法,其特征在于,所述设备信息包括硬件信息;在判定不存在所述外接设备发生故障之前,还包括:判断是否存在所述外接设备的所述硬件信息为异常值;若是,则判定所述硬件信息为异常值的外接设备为发生故障的外接设备;若否,则进入判定不存在所述外接设备发生故障的步骤。4.如权利要求3所述的故障定位方法,其特征在于,所述硬件信息包括所述外接设备的传输速率;判断是否存在所述外接设备的所述硬件信息为异常值,包括:判断是否存在所述外接设备的传输速率不满足预设速率;若是,则判定所述传输速率不满足所述预设速率的外接设备的所述硬件信息为异常值。5.如权利要求1所述的故障定位方法,其特征在于,基于所述设...

【专利技术属性】
技术研发人员:解聪陈珊
申请(专利权)人:浪潮山东计算机科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1