用于高密度刀片服务器的高可用监控管理装置及冗余切换方法制造方法及图纸

技术编号:26222512 阅读:28 留言:0更新日期:2020-11-04 10:53
本发明专利技术公开了一种用于高密度刀片服务器的高可用监控管理装置及冗余切换方法,本发明专利技术装置包括主CMU和从CMU一共两个冗余布置的机框管理单元,主CMU和从CMU之间具有两条通信链路,两条通信链路包括用于发送包含设备状态信息的心跳报文的第一通信链路以及用于发送包含设备状态信息的补救心跳报文的第二通信链路。本发明专利技术能够确保远程监控管理所有组件能力,保障高密度刀片服务器的正常运维,能够极大地降低运维风险,可解决“脑分裂”现象,通过心跳报文和补救心跳报文可传输设备状态信息,能够综合判断主CMU和从CMU的状态以避免需要切换而没有切换或者不该切换而切换的问题,能够极大提高高密度刀片服务器监控管理系统的可用性。

【技术实现步骤摘要】
用于高密度刀片服务器的高可用监控管理装置及冗余切换方法
本专利技术涉及服务器高可用技术,具体涉及一种用于高密度刀片服务器的高可用监控管理装置及冗余切换方法。
技术介绍
超算中心或者数据中心一般部署有大量高密度刀片服务器,每个高密度刀片服务器的机框中包含几十块计算主板、数块交换主板(业务数据网络)、1块监控主板、若干机框电源模块和机框散热模块(风机)等组件。计算主板和交换主板通常集成板级管理单元(BMU,BaseManagementUnit)以子卡的形式实施单板监控管理,监控主板作为机框管理单元(CMUChassisManagementUnit)收集BMU的监控管理信息,实施对整个机框中各种主板、机框电源模块和机框散热模块的监控管理。BMU与CMU通过独立于业务数据网络的监控管理网络实现信息交互。监控管理系统(BMU、CMU和监控管理网络)协同为高密度刀片服务器机框提供状态监控、管理控制、调试维护等功能,是保障高密度刀片服务器机框稳定运行的核心手段,如何保障监控管理系统自身可靠性和高可用性至关重要。现有如超微B8000V5服务器,本文档来自技高网...

【技术保护点】
1.一种用于高密度刀片服务器的高可用监控管理装置,其特征在于,包括主CMU和从CMU一共两个冗余布置的机框管理单元,所述主CMU和从CMU之间具有两条通信链路,所述两条通信链路包括用于发送包含设备状态信息的心跳报文的第一通信链路以及用于发送包含设备状态信息的补救心跳报文的第二通信链路,所述主CMU和从CMU均具有用于连接高密度刀片服务器中各个计算刀片、交换刀片中BMU的以太网接口,以及用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子。/n

【技术特征摘要】
1.一种用于高密度刀片服务器的高可用监控管理装置,其特征在于,包括主CMU和从CMU一共两个冗余布置的机框管理单元,所述主CMU和从CMU之间具有两条通信链路,所述两条通信链路包括用于发送包含设备状态信息的心跳报文的第一通信链路以及用于发送包含设备状态信息的补救心跳报文的第二通信链路,所述主CMU和从CMU均具有用于连接高密度刀片服务器中各个计算刀片、交换刀片中BMU的以太网接口,以及用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子。


2.根据权利要求1所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述主CMU和从CMU均包括机框交换模块(1)、机框管理模块(2)和机框监控模块(3),所述机框交换模块(1)分别与机框管理模块(2)、机框监控模块(3)相连,所述第一通信链路位于主CMU和从CMU的机框管理模块(2)之间,所述第二通信链路位于主CMU和从CMU的机框监控模块(3)之间,所述用于连接高密度刀片服务器中各个计算刀片、交换刀片中BMU的以太网接口设于机框交换模块(1)上,所述用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子设于机框监控模块(3)上。


3.根据权利要求2所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述机框管理模块(2)包括微处理器,所述微处理器连接有两路以太网接口,其中一路以太网接口与机框交换模块(1)相连、另一路以太网接口用于通过背板连接到主CMU和从CMU中另一者的BMU子卡以传输心跳报文。


4.根据权利要求2所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述机框监控模块(3)包括BMU子卡,所述BMU子卡上带有两路以太网接口和多个用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子,其中一路以太网接口与机框管理模块(2)相连、另一路以太网接口用于通过背板连接到主CMU和从CMU中另一者的机框管理模块(2)以传输补救心跳报文。


5.根据权利要求1所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述连接端子为I2C或者PMBUS接口。


6.一种高密度刀片服务器,包含k+1块计算刀片、l+1块交换刀片、n+1个机框散热模块、m+1个机框电源模块和监控管理装置,其特征在于,所述监控管理装置为权利要求1~5中任意一项所述用于高密度刀片服务器的高可用监控管理装置。


7.一种权利要求1...

【专利技术属性】
技术研发人员:袁远邢建英李世杰王俊蒋句平黎铁军宋振龙李琼魏登萍谢徐超任静
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1