【技术实现步骤摘要】
用于高密度刀片服务器的高可用监控管理装置及冗余切换方法
本专利技术涉及服务器高可用技术,具体涉及一种用于高密度刀片服务器的高可用监控管理装置及冗余切换方法。
技术介绍
超算中心或者数据中心一般部署有大量高密度刀片服务器,每个高密度刀片服务器的机框中包含几十块计算主板、数块交换主板(业务数据网络)、1块监控主板、若干机框电源模块和机框散热模块(风机)等组件。计算主板和交换主板通常集成板级管理单元(BMU,BaseManagementUnit)以子卡的形式实施单板监控管理,监控主板作为机框管理单元(CMUChassisManagementUnit)收集BMU的监控管理信息,实施对整个机框中各种主板、机框电源模块和机框散热模块的监控管理。BMU与CMU通过独立于业务数据网络的监控管理网络实现信息交互。监控管理系统(BMU、CMU和监控管理网络)协同为高密度刀片服务器机框提供状态监控、管理控制、调试维护等功能,是保障高密度刀片服务器机框稳定运行的核心手段,如何保障监控管理系统自身可靠性和高可用性至关重要。现有如超微B ...
【技术保护点】
1.一种用于高密度刀片服务器的高可用监控管理装置,其特征在于,包括主CMU和从CMU一共两个冗余布置的机框管理单元,所述主CMU和从CMU之间具有两条通信链路,所述两条通信链路包括用于发送包含设备状态信息的心跳报文的第一通信链路以及用于发送包含设备状态信息的补救心跳报文的第二通信链路,所述主CMU和从CMU均具有用于连接高密度刀片服务器中各个计算刀片、交换刀片中BMU的以太网接口,以及用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子。/n
【技术特征摘要】
1.一种用于高密度刀片服务器的高可用监控管理装置,其特征在于,包括主CMU和从CMU一共两个冗余布置的机框管理单元,所述主CMU和从CMU之间具有两条通信链路,所述两条通信链路包括用于发送包含设备状态信息的心跳报文的第一通信链路以及用于发送包含设备状态信息的补救心跳报文的第二通信链路,所述主CMU和从CMU均具有用于连接高密度刀片服务器中各个计算刀片、交换刀片中BMU的以太网接口,以及用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子。
2.根据权利要求1所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述主CMU和从CMU均包括机框交换模块(1)、机框管理模块(2)和机框监控模块(3),所述机框交换模块(1)分别与机框管理模块(2)、机框监控模块(3)相连,所述第一通信链路位于主CMU和从CMU的机框管理模块(2)之间,所述第二通信链路位于主CMU和从CMU的机框监控模块(3)之间,所述用于连接高密度刀片服务器中各个计算刀片、交换刀片中BMU的以太网接口设于机框交换模块(1)上,所述用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子设于机框监控模块(3)上。
3.根据权利要求2所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述机框管理模块(2)包括微处理器,所述微处理器连接有两路以太网接口,其中一路以太网接口与机框交换模块(1)相连、另一路以太网接口用于通过背板连接到主CMU和从CMU中另一者的BMU子卡以传输心跳报文。
4.根据权利要求2所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述机框监控模块(3)包括BMU子卡,所述BMU子卡上带有两路以太网接口和多个用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子,其中一路以太网接口与机框管理模块(2)相连、另一路以太网接口用于通过背板连接到主CMU和从CMU中另一者的机框管理模块(2)以传输补救心跳报文。
5.根据权利要求1所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述连接端子为I2C或者PMBUS接口。
6.一种高密度刀片服务器,包含k+1块计算刀片、l+1块交换刀片、n+1个机框散热模块、m+1个机框电源模块和监控管理装置,其特征在于,所述监控管理装置为权利要求1~5中任意一项所述用于高密度刀片服务器的高可用监控管理装置。
7.一种权利要求1...
【专利技术属性】
技术研发人员:袁远,邢建英,李世杰,王俊,蒋句平,黎铁军,宋振龙,李琼,魏登萍,谢徐超,任静,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。