适用于小规模嵌入式计算集群系统的管理节点协商方法技术方案

技术编号:32260507 阅读:12 留言:0更新日期:2022-02-12 19:20
本发明专利技术公开了一种适用于小规模嵌入式计算集群系统的管理节点协商方法。方法中利用健康子系统中BMC对嵌入式计算机单板的在线状态进行监测,根据计算机单板注册、离线事件,动态触发管理节点协商。健康管理主节点SMC根据在线计算机单板的注册顺序,指定系统中的管理板,并通知集群管理软件将运行模式设定为“管理节点”,从而实现了在初始上电、热插拔等场景下,管理节点的动态产生,保证系统的高可用,同时减少板卡类型,降低维护成本。降低维护成本。降低维护成本。

【技术实现步骤摘要】
适用于小规模嵌入式计算集群系统的管理节点协商方法


[0001]本专利技术属于计算机集群管理软件领域,涉及一种计算集群系统的管理节点协商方法,尤其涉及一种适用于小规模嵌入式计算集群系统的管理节点协商方法。

技术介绍

[0002]随着边缘计算技术的发展,车载、机载、单兵背包等应用场景下对小规模嵌入式计算集群系统需求不断增加。典型小规模嵌入式计算集群系统,一般包括至多十余块单板计算机模块、1

块存储模块、1

2块电源模块、1块网络交换模块、底板、机箱或机架等部件。单板计算机模块之间通过高速以太网互联,其中1块为管理板,其他为计算板。管理板将任务请求调度到不同计算板上,实现集群计算。系统中每模块都板载一块可以 CPU通信的健康管理子卡,该子卡配有健康管理固件,可独立工作,通过CAN或IIC 等网络接口组成健康子网,构成独立的健康子系统。健康子系统默认配置1个健康管理主节点(SMC),其他节点为健康管理从节点(BMC)。BMC负责采集所在模块健康信息,接收和执行SMC下发的指令,控制单板计算机的启动和关闭等。SMC负责汇总和分析健康信息,向BMC下发指令,并提供网络接口与其他系统交互。
[0003]由于嵌入式计算机本身算力有限,小规模嵌入式计算集群整体性能不强,同时典型应用场景下对系统实时性、支持多种体系结构计算资源等方面有特别的需求,导致流行的商业集群管理软件如K8S等难以部署,必须采用简化的集群管理软件架构。通常为避免实现复杂的管理板选举等算法,采取将单板计算机一型板卡预先划分为管理板、计算板两型板卡的方法,甚至为管理板、计算板指定槽位和IP地址。简化方案导致系统在装配、维护时,必须确认单板计算机与槽位匹配后,才能将其插入到集群中,否则可能导致集群无法工作。同时,由于板卡物理类型的增加,也导致维修备件类型和数量增加,提高了维护成本。

技术实现思路

[0004]本专利技术的目的在于针对当前小规模嵌入式计算集群系统采取的静态板卡类型、槽位及IP等措施的固定管理节点方法,导致装配效率低、维修备件种类和数量多的问题,提供了一种利用健康管理子系统与集群管理软件协商,动态管理调整单板计算机模块的板卡类型,动态产生管理节点的方法。
[0005]实现本专利技术目的的技术解决方案为:一种适用于小规模嵌入式计算集群系统的管理节点协商方法,所述方法包括:
[0006]计算机板卡在线状态监测:采用健康子系统对计算机板卡在线状态进行监测;
[0007]管理板协商:健康管理主节点即SMC根据计算机板卡在线状态,动态指定管理板。
[0008]进一步地,所述计算机板卡在线状态监测,具体包括以下步骤:
[0009](1)将健康管理主节点即SMC部署在非计算机板卡的其他模块上,健康管理从节点即BMC部署在计算机板卡上;
[0010](2)BMC上电后,向SMC注册;注册成功后,控制本板计算机模块启动;
[0011](3)集群管理软件定期向本板BMC查询板卡类型,BMC根据查询报文间隔时间判定集群管理软件是否在线;
[0012](4)BMC定期向SMC上报集群管理软件在线状态,SMC根据与BMC通信间隔时间或集群管理软件离线消息,判断计算机板卡在线状态。
[0013]进一步地,所述SMC根据与BMC通信间隔时间或集群管理软件离线消息,判断计算机板卡在线状态,具体为:
[0014]若SMC在规定时间内没有收到BMC上报的“集群管理软件在线”,或直接收到“集群管理软件离线”消息,则SMC判断计算机板卡离线,否则判断计算机板卡在线。
[0015]进一步地,所述管理板协商,具体包括以下步骤:
[0016](1)初始上电
[0017]SMC根据BMC的注册的状态,指定某一块计算机板卡为管理板,其他为计算板;
[0018]SMC将分配的板卡类型结果通过健康总线通知BMC,BMC更新本板板卡类型信息,执行单板计算机启动,集群管理软件自动执行;
[0019]集群管理软件启动后,从板载BMC处获取本板类型,并根据板卡类型设置软件运行模式,即管理板类型的计算机板卡上集群软件运行“管理节点”模式,计算板类型的计算机板卡上集群软件运行“计算节点”模式;
[0020]“管理节点”模式的集群管理软件定期通过网络广播自己的管理节点身份;
[0021](2)管理板离线
[0022]SMC判定管理板离线,修改槽位注册顺序链表;
[0023]SMC从槽位注册顺序链表中,根据管理板协商规则,选择下一任管理板;
[0024]SMC通知BMC更新板卡类型;
[0025]集群管理软件定期向板载BMC查询板卡类型时,当发现板卡类型由“计算板”变为“管理板”后,更改运行模式为“管理节点”,并广播自己的身份;
[0026](3)计算板离线
[0027]SMC判定计算板离线,修改槽位注册顺序链表;
[0028]SMC通知“管理节点”集群管理软件当前可以计算资源槽位号;
[0029]“管理节点”集群管理软件更新资源池;
[0030](4)计算板上线
[0031]SMC判定计算板上线,修改槽位注册顺序链表;
[0032]SMC通知“管理节点”集群管理软件当前可以计算资源槽位号;
[0033]“管理节点”集群管理软件更新资源池。
[0034]进一步地,SMC判定单板计算机离线或上线,具体为:
[0035]集群管理软件定期向板载BMC查询板卡类型;
[0036]BMC根据规定时间内接收到的查询消息数量,判定单板计算机是否离线或在线,具体为:若规定时间内接收到的查询消息数量大于预设阈值,则判定计算机在线,否则判定计算机离线;
[0037]BMC定期将板卡类型状态信息向SMC上报。
[0038]进一步地,所述SMC判定管理板离线,修改槽位注册顺序链表,具体为:SMC将“槽位注册顺序链表”中管理板对应的槽位删除,向BMC下发相应的离线处理命令,且发起系统资
源更新;
[0039]所述SMC判定计算板离线,修改槽位注册顺序链表,具体为:SMC向“管理节点”发送当前各槽位的在线状态信息,由“管理节点”删除相应的计算资源;
[0040]所述SMC判定计算板上线,修改槽位注册顺序链表,具体为:SMC向“管理节点”发送当前各槽位的在线状态信息,由“管理节点”添加相应的计算资源。
[0041]进一步地,所述根据管理板协商规则,选择下一任管理板,具体为:根据“槽位注册顺序链表”,SMC位于链表中第一位的槽位上单板计算机板载BMC发送板卡类型变更消息,将板卡类型由“计算板”更新为“管理板”。
[0042]本专利技术与现有技术相比,其显著优点为:充分利用集群系统中现有的健康子系统,简化集群管理软件的管理节点协助机制。单板计算机接入集群系统时,板载BMC向SMC 进行注册,SMC根据一定的算法为单板计算机动态分配“管理板”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于小规模嵌入式计算集群系统的管理节点协商方法,其特征在于,所述方法包括:计算机板卡在线状态监测:采用健康子系统对计算机板卡在线状态进行监测;管理板协商:健康管理主节点即SMC根据计算机板卡在线状态,动态指定管理板。2.根据权利要求1所述的适用于小规模嵌入式计算集群系统的管理节点协商方法,其特征在于,所述计算机板卡在线状态监测,具体包括以下步骤:(1)将健康管理主节点即SMC部署在非计算机板卡的其他模块上,健康管理从节点即BMC部署在计算机板卡上;(2)BMC上电后,向SMC注册;注册成功后,控制本板计算机模块启动;(3)集群管理软件定期向本板BMC查询板卡类型,BMC根据查询报文间隔时间判定集群管理软件是否在线;(4)BMC定期向SMC上报集群管理软件在线状态,SMC根据与BMC通信间隔时间或集群管理软件离线消息,判断计算机板卡在线状态。3.根据权利要求2所述的适用于小规模嵌入式计算集群系统的管理节点协商方法,其特征在于,所述SMC根据与BMC通信间隔时间或集群管理软件离线消息,判断计算机板卡在线状态,具体为:若SMC在规定时间内没有收到BMC上报的“集群管理软件在线”,或直接收到“集群管理软件离线”消息,则SMC判断计算机板卡离线,否则判断计算机板卡在线。4.根据权利要求1所述的适用于小规模嵌入式计算集群系统的管理节点协商方法,其特征在于,所述管理板协商,具体包括以下步骤:(1)初始上电SMC根据BMC的注册的状态,指定某一块计算机板卡为管理板,其他为计算板;SMC将分配的板卡类型结果通过健康总线通知BMC,BMC更新本板板卡类型信息,执行单板计算机启动,集群管理软件自动执行;集群管理软件启动后,从板载BMC处获取本板类型,并根据板卡类型设置软件运行模式,即管理板类型的计算机板卡上集群软件运行“管理节点”模式,计算板类型的计算机板卡上集群软件运行“计算节点”模式;“管理节点”模式的集群管理软件定期通过网络广播自己的管理节点身份;(2)管理板离线SMC判定管理板离线,修改槽位注册顺序链表;SM...

【专利技术属性】
技术研发人员:李庆尹加豹颜伟朱涛刘刚刘宏伟滕有责毛晓梅
申请(专利权)人:中国船舶重工集团公司第七一六研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1