一种刀片服务器系统及其功耗管理方法技术方案

技术编号:2913801 阅读:303 留言:0更新日期:2012-04-11 18:40
一种刀片服务器系统,包括多个刀片、管理模块以及电源模块;每一刀片又有BMC、Payload、开关及传感器;其中,管理模块通过读取存储在BMC中刀片的优先级数据及传感器对Payload功耗的实时监测数据,并读取电源模块能提供的功率,实时计算出系统当前的剩余功率,分别在系统上电、有刀片插入或拔出时据刀片优先级、槽位来确定刀片的上电顺序,并据此和系统当前能提供的剩余功率,依次对各刀片的Payload的通电与否向BMC做出指示;电源模块分配和回收所有刀片的电源功率;BMC分别对获准上电、被采取断电的Payload控制开关闭合或断开。本发明专利技术能够有效地对刀片服务器的功耗进行管理,保证其长期正常运行。

【技术实现步骤摘要】

本专利技术涉及网络服务器的功耗管理技术,尤其涉及刀片服务器的功耗管理和电源功率分配技术。
技术介绍
刀片服务器是指在机架式机箱内可插装多个卡式的服务器单元,即刀片单板(亦可简称刀片)。其实际上是类似电脑主板的板卡,板卡上有处理器、芯片组、内存和硬盘等,并安装了操作系统,因此一个“刀片”就是一台小型服务器。这一张张的刀片组合起来,进行数据的互通和共享,在系统软件的协调下同步工作,就可以变成高可用及高密度型的服务器。通常,刀片服务器应用在一些大型的数据中心场合。刀片服务器系统作为一种高密度系统,通常可以容纳十多个刀片。电源模块作为刀片服务器系统的动力来源,要求其能够提供足够的功率,即能够支撑机框内所有的刀片运行在100%功率下的操作状态,且所用的电源模块都设置了充分的冗余,因为其安全可靠性直接关系整个系统的性能和稳定性。由于刀片服务器是一个庞大的耗电系统,在典型的数据中心中,通常部署了大量服务器,但可用的功率一般是有限的,因此,有效管理刀片单板的功耗就显得尤为重要。而目前服务器计算平台的处理器、芯片组、内存、硬盘等器件的发展日新月异,相关芯片器件的功耗逐步增加;但刀片服务器系统的电源模块更新速率却远低于处理器、芯片组的更新速度,这就对在原有的刀片服务器系统内兼容运行新的刀片单板和将来的可能更大功耗的刀片单板,都提出极大的挑战。现实情况也表明,在某些主流厂商的刀片服务器系统中,所用电源模块提供的电源功率远跟不上刀片单板的功率要求,不得不被迫通过多次升级电源模块的功率来解决这个问题。而即使通过这种方式,还是无法确保在刀片系统内满配置所有的刀片,仍然有可能出现新增加的重要性更高的刀片可-->能会由于功率短缺而无法正常上电,从而引发服务器的灾难性故障。单纯地通过升级提高电源模块功率指标的方式并不能从根本上解决这种问题。目前,业界流行的刀片服务器系统的功耗管理策略有2种:第一种功耗管理策略是最常用的也是最简单的功耗管理策略,管理员或用户假设最坏的情况发生,即假设每个刀片都以100%的功率运行,然后根据这个假设,对刀片服务器手动分配给各个刀片的电源功率为最大功耗额定值,以确保刀片服务器系统内所有的刀片运行能够在100%功率的操作状态。但是,这种功耗管理办法存在一些问题:一方面,将每个刀片的功耗都设置为最大额定值,而通常刀片服务器系统并没有完全使用所分配的所有功耗,因此浪费了一些功率容量,这会导致管理员或用户因无法有效管理功耗而不得不限制服务器的使用。另一方面,所有刀片的功耗设置都是一样的,无法体现不同刀片在业务运行中的重要性;在已部署的服务器使用完所有可用的电源功率时,新增加的重要性更高的刀片可能会由于功率短缺而无法正常上电,服务器的灾难性故障就可能由此而引起。另一种功耗管理策略,是在第一种功耗管理策略基础中进行了改进,即在刀片系统中采用电源节流策略。例如,IBM公司专利号为CN200610144410的专利“用于刀片系统的节流管理的方法和系统”,就是针对第一种功耗管理策略的弊端做了改进。根据实践统计发现的实际应用很少出现所有刀片都以100%功率运行,事实上,刀片在实际操作中需要100%功率的概率仅约为0.2%。因而在大多数情况下,系统有大量功率可以分配给其它刀片,所以采用节流策略,根据对刀片预期使用的实际功率的估计值而不是最大功率额定值来为刀片分配功率,并设置阈值监控刀片负载,如果该负载超过这个阈值,则触发系统执行节流操作,降低该刀片的功耗,以维持更多刀片的运行。而这种功耗管理办法也存在一些问题:一方面,所有刀片的设置还是相同的,无法体现各自在业务运行中的重要性;在已部署的服务器使用了所有可用的电源功率时,新增加的重要性更高的刀片还是有可能会由于功率短缺而无法正常上电。另一方面,每个刀片的功耗设置是基于估计预期使用的实际功率,估计的准确度是否符合实际应用情况都需要经过实践的验证,在不-->同业务平台这个数据差别很大,不能一概而论。因此,希望有一种方法能够体现出刀片服务器系统中不同刀片运行业务的重要性,并能够优先考虑重要性较高的刀片的功率分配,让刀片服务器中每一个上电的刀片都尽可能地运行在其实际需要的功率下,从而能够有效地实现刀片服务器的功率分配及功耗管理。
技术实现思路
本专利技术所要解决的技术问题是提供一种刀片服务器系统及其功耗管理方法,能够根据不同刀片单板运行业务的重要性来为刀片单板分配功率,并能对刀片服务器中每一个上电的刀片单板的运行功耗实行管理及采取相应的措施,从而能够有效地实现刀片服务器的功耗管理。为了解决上述技术问题,本专利技术提供了一种刀片服务器系统,包含在一个机框内;该系统包括:多个刀片、管理模块以及电源模块;每一刀片又含有:刀片管理子系统BMC、主负荷模块Payload、开关SW以及传感器;其中:管理模块,分别与每一刀片的BMC及电源模块连接,用于对机框内所有刀片,依据从BMC读取的刀片的优先级数据确定刀片的功率分配顺序,并根据从电源模块获取的系统当前的剩余功率,依功率分配顺序对各刀片Payload的通电与否向刀片的MC做出指示;电源模块,与SW通过电源线连接,用于在管理模块的控制下,分配和回收机框内所有刀片的电源功率;BMC,分别与辅助电源线、SW及传感器连接,用于向管理模块申请本刀片上Payload的通电,并对获准通电的Payload控制SW闭合;当收到管理模块对刀片的Payload断电的指示后,控制SW断开;Payload,分别与SW和传感器连接,用于作为刀片的主要部分在SW的控制下接受电源模块对其提供的功率分配,并接受BMC通过传感器对其实施的功耗监测;开关SW,用于在BMC的控制下为刀片的Payload提供通电或断电操作;传感器,用于将刀片的Payload所汲取的功耗信号进行实时转换传输给-->BMC。进一步地,BMC的重要管理数据VPD里含有根据运行业务重要性而自定义的刀片的优先级数据,管理模块对申请上电的刀片从高优先级到低优先级排序,在属于同一优先级的刀片之间依其安装槽位的顺序排序,依此排序结果作为功率分配顺序。进一步地,管理模块通过读取存储在BMC中对Payload功耗的实时监测数据,并读取电源模块能提供的功率,实时计算出系统当前的剩余功率;管理模块分别在机框开机上电、机框内有新刀片插入或有刀片拔出时,采用冒泡排序法对申请通电的刀片进行排序。进一步地,BMC的VPD里还含有刀片的静态信息,包括刀片的型号、序列号以及版本号。进一步地,管理模块在判断系统当前的剩余功率不足以为当前排序第一的刀片提供上电功率时,对机框内现有的分配功率范围内的刀片依照其优先级执行节能降耗措施,该节能降耗措施包括:针对优先级别较低的刀片根据对其功耗的监测数据,将提供给该刀片的功率降至略高于该监测数据;或者,在当前排序第一的刀片的优先级高于机框内已通电的其它刀片的优先级时,指示优先级别最低的刀片的BMC对其Payload断电,以将腾出功率为当前排序第一的刀片上电提供。进一步地,BMC还用于向管理模块输出刀片未获准上电或对刀片实施强制断电的告警信息,以及将未获准上电或被实施强制断电的刀片记录到管理日志中;管理模块还用于对机框内所有刀片的工作状态属性和事件进行记录和上报;该工作状态属性包括电压、温度、风扇转速以及C本文档来自技高网
...

【技术保护点】
一种刀片服务器系统,包含在一个机框内,所述系统包括:多个刀片、管理模块以及电源模块;每一刀片又含有:刀片管理子系统BMC、主负荷模块Payload、开关SW以及传感器;其中: 所述管理模块,分别与所述每一刀片的所述BMC及所述电源模块连接,用于对所述机框内所有所述刀片,依据从所述BMC读取的所述刀片的优先级数据确定所述刀片的功率分配顺序,并根据从所述电源模块获取的系统当前的剩余功率,依所述功率分配顺序对各刀片所述Payload的通电与否向所述刀片的所述BMC做出指示;所述电源模块,与所述SW通过电源线连接,用于在所述管理模块的控制下,分配和回收所述机框内所有所述刀片的电源功率; 所述BMC,分别与辅助电源线、所述SW及所述传感器连接,用于向所述管理模块申请本刀片上所述Payload的通电,并对获准通电的所述Payload控制所述SW闭合;当收到所述管理模块对所述刀片的所述Payload断电的指示后,控制所述SW断开; 所述Payload,分别与所述SW和所述传感器连接,用于作为所述刀片的主要部分在所述SW的控制下接受所述电源模块对其提供的功率分配,并接受所述BMC通过所述传感器对其实施的功耗监测; 所述开关,用于在所述BMC的控制下为所述刀片的所述Payload提供所述通电或所述断电操作; 所述传感器,用于将所述刀片的所述Payload所汲取的功耗信号进行实时转换传输给所述BMC。...

【技术特征摘要】
1、一种刀片服务器系统,包含在一个机框内,所述系统包括:多个刀片、管理模块以及电源模块;每一刀片又含有:刀片管理子系统BMC、主负荷模块Payload、开关SW以及传感器;其中:所述管理模块,分别与所述每一刀片的所述BMC及所述电源模块连接,用于对所述机框内所有所述刀片,依据从所述BMC读取的所述刀片的优先级数据确定所述刀片的功率分配顺序,并根据从所述电源模块获取的系统当前的剩余功率,依所述功率分配顺序对各刀片所述Payload的通电与否向所述刀片的所述BMC做出指示;所述电源模块,与所述SW通过电源线连接,用于在所述管理模块的控制下,分配和回收所述机框内所有所述刀片的电源功率;所述BMC,分别与辅助电源线、所述SW及所述传感器连接,用于向所述管理模块申请本刀片上所述Payload的通电,并对获准通电的所述Payload控制所述SW闭合;当收到所述管理模块对所述刀片的所述Payload断电的指示后,控制所述SW断开;所述Payload,分别与所述SW和所述传感器连接,用于作为所述刀片的主要部分在所述SW的控制下接受所述电源模块对其提供的功率分配,并接受所述BMC通过所述传感器对其实施的功耗监测;所述开关,用于在所述BMC的控制下为所述刀片的所述Payload提供所述通电或所述断电操作;所述传感器,用于将所述刀片的所述Payload所汲取的功耗信号进行实时转换传输给所述BMC。2、按照权利要求1所述的系统,其特征在于,所述BMC的重要管理数据VPD里含有根据运行业务重要性而自定义的所述刀片的优先级数据,所述管理模块对申请上电的所述刀片从高优先级到低优先级排序,在属于同一优先级的所述刀片之间依其安装槽位的顺序排序,依此排序结果作为所述功率分配顺序。3、按照权利要求2所述的系统,其特征在于,所述管理模块通过读取存储在所述BMC中对所述Payload功耗的实时监测数据,并读取所述电源模块能提供的功率,实时计算出所述系统当前的剩余功率;所述管理模块分别在所述机框开机上电、所述机框内有新刀片插入或有所述刀片拔出时,采用冒泡排序法对所述申请通电的刀片进行所述排序。4、按照权利要求2所述的系统,其特征在于,所述BMC的所述VPD里还含有所述刀片的静态信息,包括所述刀片的型号、序列号以及版本号。5、按照权利要求1至4任一项所述的系统,其特征在于,所述管理模块在判断所述系统当前的剩余功率不足以为当前排序第一的所述刀片提供上电功率时,对所述机框内现有的分配功率范围内的所述刀片依照其所述优先级执行节能降耗措施,所述节能降耗措施包括:针对优先级别较低的所述刀片根据对其功耗的监测数据,将提供给该刀片的功率降至略高于所述监测数据;或者,在所述当前排序第一的刀片的所述优先级高于所述机框内已通电的其它刀片的所述优先级时,指示优先级别最低的所述刀片的所述BMC对所述Payload断电,以将腾出功率为所述当前排序第一的刀片上电提供。6、按照权利要求4所述的系统,其特征在于,所述BMC还用于向所述管理模块输出所述刀片未获准上电或对所述刀片实施强制断电的告警信息,以及将所述未获准上电或被实施强制断电的刀片记录到管理日志中;所述管理模块还用于对所述机框内所有所述刀片的工作状态属性和事件进行记录和上报;所述工作状态属性包括电压、温度、风扇转速以及CPU状况,所述事件包括所述刀片的热插拔、所述刀片未允许上电或被实施强制断电或其它异常事件;以及对所述刀片信息进行管理,所述刀片信息包括所述静态信息及所述刀片的运行功耗。7、一种刀片服务器系统的功耗管理方法,涉及系统内的电源模块、...

【专利技术属性】
技术研发人员:刘步荣
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1