一种故障PCIe设备的更换方法、装置及系统制造方法及图纸

技术编号:21832227 阅读:36 留言:0更新日期:2019-08-10 17:50
本发明专利技术公开了一种故障PCIe设备的更换方法,包括:当确定故障PCIe设备时,管理服务器通过故障PCIe设备的拓扑信息,确定故障PCIe设备级联的目标主机服务器;控制目标主机服务器关机;向池化服务器的BMC发送故障PCIe设备的PCIe Slot下电指令;若故障PCIe设备更换完毕,向池化服务器的BMC发送PCIe Slot上电指令;控制目标主机服务器开机;该方法在更换故障PCIe设备时,不会影响所有共享资源池的主机服务器的业务运行,降低运维的成本与风险;本发明专利技术还公开了一种故障PCIe设备的更换装置、系统及计算机可读存储介质,具有上述有益效果。

A Method, Device and System for Replacing Faulty PCIe Equipment

【技术实现步骤摘要】
一种故障PCIe设备的更换方法、装置及系统
本专利技术涉及计算机
,特别涉及一种故障PCIe设备的更换方法、装置、系统及计算机可读存储介质。
技术介绍
随着云计算技术的发展,现已进入大数据时代,数据中心处理的数据规模成几何倍数增长,大数据环境下对服务器计算资源及存储资源的需求日益剧增。因此,PCIeSwitch服务器支持的融合架构成为新技术趋势,在硬件层面将GPU、SSD等计算及存储资源整合成为资源池,不同设备之间的同类资源能够任意重组;在软件层,通过上层软件实时感知前端业务的资源需求,通过硬件重组、动态分配和组合资源来满足各类需求。目前,池化服务器中更换故障PCIe设备时需整机关机,即所有共享资源池的主机服务器(即Host服务器)先关机,然后池化服务器再关机。等到故障PCIe设备更换完毕后再按开机顺序整机开机。可见,当前技术在更换故障PCIe设备时会影响所有共享资源池的Host服务器的业务运行,增加了运维的成本与风险。
技术实现思路
本专利技术的目的是提供一种故障PCIe设备的更换方法、装置、系统及计算机可读存储介质,能够在更换故障PCIe设备时,不会影响所有共享资源池的主机服务器的业务运行,降低运维的成本与风险。为解决上述技术问题,本专利技术提供一种故障PCIe设备的更换方法,包括:当确定故障PCIe设备时,管理服务器通过所述故障PCIe设备的拓扑信息,确定所述故障PCIe设备级联的目标主机服务器;控制所述目标主机服务器关机;向池化服务器的BMC发送所述故障PCIe设备的PCIeSlot下电指令,以使所述池化服务器的主板CPLD控制所述故障PCIe设备的PCIeSlot下电;若所述故障PCIe设备更换完毕,向所述池化服务器的BMC发送PCIeSlot上电指令,以使所述主板CPLD控制对应PCIeSlot上电;控制所述目标主机服务器开机。可选地,所述确定故障PCIe设备的方式,包括:从第一主机服务器获取池化服务器设备的健康状态信息,并根据所述健康状态信息确定运行状态异常的所述故障PCIe设备。可选地,所述控制所述目标主机服务器开机之前,还包括:判断所述PCIeSlot是否成功上电;若是,则执行所述控制所述目标主机服务器开机的步骤。可选地,所述向池化服务器的BMC发送所述故障PCIe设备的PCIeSlot下电指令,包括:所述管理服务器向第二主机服务器的BMC发送所述故障PCIe设备的PCIeSlot下电指令;所述第二主机服务器的BMC通过I2C向所述池化服务器的BMC发送所述故障PCIe设备的PCIeSlot下电指令;所述池化服务器的BMC将所述故障PCIe设备的PCIeSlot下电指令发送给所述主板CPLD。本专利技术还提供一种故障PCIe设备的更换装置,包括:目标主机服务器确定模块,用于当确定故障PCIe设备时,管理服务器通过所述故障PCIe设备的拓扑信息,确定所述故障PCIe设备级联的目标主机服务器;关机模块,用于控制所述目标主机服务器关机;下电模块,用于向池化服务器的BMC发送所述故障PCIe设备的PCIeSlot下电指令,以使所述池化服务器的主板CPLD控制所述故障PCIe设备的PCIeSlot下电;上电模块,用于若所述故障PCIe设备更换完毕,向所述池化服务器的BMC发送PCIeSlot上电指令,以使所述主板CPLD控制对应PCIeSlot上电;开机模块,用于控制所述目标主机服务器开机。可选地,所述故障PCIe设备的更换装置还包括:故障PCIe设备确定模块,用于从第一主机服务器获取池化服务器设备的健康状态信息,并根据所述健康状态信息确定运行状态异常的所述故障PCIe设备。可选地,所述故障PCIe设备的更换装置还包括:判断模块,用于判断所述PCIeSlot是否成功上电;若是,则触发所述开机模块。本专利技术还提供一种故障PCIe设备的更换系统,包括:池化服务器、主机服务器以及管理服务器;其中,所述管理服务器用于时实现上述所述的故障PCIe设备的更换方法的步骤。本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的故障PCIe设备的更换方法的步骤。本专利技术所提供的故障PCIe设备的更换方法,包括:当确定故障PCIe设备时,管理服务器通过故障PCIe设备的拓扑信息,确定故障PCIe设备级联的目标主机服务器;控制目标主机服务器关机;向池化服务器的BMC发送故障PCIe设备的PCIeSlot下电指令,以使池化服务器的主板CPLD控制故障PCIe设备的PCIeSlot下电;若故障PCIe设备更换完毕,向池化服务器的BMC发送PCIeSlot上电指令,以使主板CPLD控制对应PCIeSlot上电;控制目标主机服务器开机。可见,该方法在更换故障PCIe设备时,仅需要关闭与该故障PCIe设备存在拓扑关系的目标主机服务器,并只需将该故障PCIe设备对应的PCIeSlot下电,更换故障PCIe设备即可完成故障PCIe设备的更换,实现了通过PCIeSlot单独上下电更换故障PCIe设备;即不需要关闭全部的主机服务器,也不需要整体关闭池化服务器就能够完成故障PCIe设备的更换;克服了相关技术中池化服务器在更换故障PCIe设备时需整机关机所带来的问题,即所有共享资源池的主机服务器先关机,然后池化服务器再关机,等到故障PCIe设备更换完毕后再按开机顺序整机开机;即相关技术在更换故障PCIe设备时会影响所有共享资源池的主机服务器的业务运行,增加了运维的成本与风险;本专利技术还提供了一种故障PCIe设备的更换装置、系统及计算机可读存储介质,具有上述有益效果,在此不再赘述。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例所提供的故障PCIe设备的更换方法的流程图;图2为本专利技术实施例所提供的故障PCIe设备的更换装置的结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。目前,相关技术中在更换故障PCIe设备时需要对全部的主机服务器以及池化服务器进行关机,进行故障PCIe设备的更换,这样的操作会严重影响所有共享资源池的主机服务器的业务运行,增加了运维的成本与风险;本实施例中通过故障PCIe设备对应的PCIeSlot单独上下电方法,来避免上述问题。具体请参考图1,图1为本专利技术实施例所提供的故障PCIe设备的更换方法的流程图;该方法可以包括:S101:当确定故障PCIe设备时,管理服务器通过故障PCIe设备的拓扑信息,确定故障PCIe设备级联的目标主机服务器。本实施例中并不限定故障PCIe设备确定方式,只要可以确定存在故障PCIe设备即可。在确定故障PCIe设备时,就可以触发本实施例本文档来自技高网...

【技术保护点】
1.一种故障PCIe设备的更换方法,其特征在于,包括:当确定故障PCIe设备时,管理服务器通过所述故障PCIe设备的拓扑信息,确定所述故障PCIe设备级联的目标主机服务器;控制所述目标主机服务器关机;向池化服务器的BMC发送所述故障PCIe设备的PCIe Slot下电指令,以使所述池化服务器的主板CPLD控制所述故障PCIe设备的PCIe Slot下电;若所述故障PCIe设备更换完毕,向所述池化服务器的BMC发送PCIe Slot上电指令,以使所述主板CPLD控制对应PCIe Slot上电;控制所述目标主机服务器开机。

【技术特征摘要】
1.一种故障PCIe设备的更换方法,其特征在于,包括:当确定故障PCIe设备时,管理服务器通过所述故障PCIe设备的拓扑信息,确定所述故障PCIe设备级联的目标主机服务器;控制所述目标主机服务器关机;向池化服务器的BMC发送所述故障PCIe设备的PCIeSlot下电指令,以使所述池化服务器的主板CPLD控制所述故障PCIe设备的PCIeSlot下电;若所述故障PCIe设备更换完毕,向所述池化服务器的BMC发送PCIeSlot上电指令,以使所述主板CPLD控制对应PCIeSlot上电;控制所述目标主机服务器开机。2.根据权利要求1所述的故障PCIe设备的更换方法,其特征在于,所述确定故障PCIe设备的方式,包括:从第一主机服务器获取池化服务器设备的健康状态信息,并根据所述健康状态信息确定运行状态异常的所述故障PCIe设备。3.根据权利要求1所述的故障PCIe设备的更换方法,其特征在于,所述控制所述目标主机服务器开机之前,还包括:判断所述PCIeSlot是否成功上电;若是,则执行所述控制所述目标主机服务器开机的步骤。4.根据权利要求1所述的故障PCIe设备的更换方法,其特征在于,所述向池化服务器的BMC发送所述故障PCIe设备的PCIeSlot下电指令,包括:所述管理服务器向第二主机服务器的BMC发送所述故障PCIe设备的PCIeSlot下电指令;所述第二主机服务器的BMC通过I2C向所述池化服务器的BMC发送所述故障PCIe设备的PCIeSlot下电指令;所述池化服务器的BMC将所述故障PCIe设备的PCIeSlot下电指令发...

【专利技术属性】
技术研发人员:曲勇胡雷钧乔英良
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1