一种面向高性能计算机的海量计算节点资源监控管理方法技术

技术编号:26504338 阅读:29 留言:0更新日期:2020-11-27 15:31
本发明专利技术公开了一种面向高性能计算机的海量计算节点资源监控管理方法,包括控制节点通过中间节点发送消息发送请求的下述步骤:控制节点取出一个消息发送请求,生成一个用于处理该消息发送请求的工作线程;通过该工作线程选择一个正常的中间节点;通过该工作线程向选择的中间节点转发该消息发送请求,然后等待由该中间节点返回的消息,且在收到该中间节点返回的消息后跳转执行下一步;工作线程处理返回的消息,工作线程更新中间节点和计算节点的状态,工作线程结束。本发明专利技术在控制节点与海量计算节点间增加一层中间节点以分担控制节点在对海量计算节点资源进行监控和管理的过程中的负载,同时降低计算节点在这一过程中的相关负载。

【技术实现步骤摘要】
一种面向高性能计算机的海量计算节点资源监控管理方法
本专利技术涉及高性能计算机的海量计算节点资源管理技术,具体涉及一种面向高性能计算机的海量计算节点资源监控管理方法。
技术介绍
当前,针对高性能计算机中的海量计算节点资源采用的是单一控制节点对大量计算节点进行控制的管理模式。在系统运行过程中,控制节点需要监控并记录每一个计算节点的实时状态以便于进行任务分配等工作。实现该功能的主要方式是控制节点不断产生向计算节点发送消息的请求(消息发送请求),根据计算节点的返回消息得到计算节点的当前状态并修改控制节点上用于管理计算节点的数据结构。这些消息发送请求的共同特点是发送的消息内容相同,但目标节点的数量往往较大,甚至某些消息发送请求的目标节点会包含所有的计算节点。在处理消息发送请求时,控制节点会采用星形结构或树形结构进行消息的发送。所谓星形结构,是指控制节点直接向所有目标计算节点发送消息,而树形结构则需要由控制节点和计算节点共同构建一个通信树来完成消息的发送和接收过程。具体而言,控制节点将目标节点进行分组,分组后的组数即为通信树宽,控制节点只给每组节点中的第本文档来自技高网...

【技术保护点】
1.一种面向高性能计算机的海量计算节点资源监控管理方法,其特征在于,包括控制节点通过中间节点发送消息发送请求的下述步骤:/n1)控制节点取出一个消息发送请求,生成一个用于处理该消息发送请求的工作线程;/n2)通过该工作线程选择一个正常的中间节点;/n3)通过该工作线程向选择的中间节点转发该消息发送请求,然后等待由该中间节点返回的消息,且在收到该中间节点返回的消息后跳转执行下一步;/n4)工作线程处理返回的消息,工作线程更新中间节点和计算节点的状态,工作线程结束。/n

【技术特征摘要】
1.一种面向高性能计算机的海量计算节点资源监控管理方法,其特征在于,包括控制节点通过中间节点发送消息发送请求的下述步骤:
1)控制节点取出一个消息发送请求,生成一个用于处理该消息发送请求的工作线程;
2)通过该工作线程选择一个正常的中间节点;
3)通过该工作线程向选择的中间节点转发该消息发送请求,然后等待由该中间节点返回的消息,且在收到该中间节点返回的消息后跳转执行下一步;
4)工作线程处理返回的消息,工作线程更新中间节点和计算节点的状态,工作线程结束。


2.根据权利要求1所述的面向高性能计算机的海量计算节点资源监控管理方法,其特征在于,步骤1)中控制节点取出一个消息发送请求具体是指控制节点的控制线程从全局链上取出一个消息发送请求,所述全局链用于存储控制节点的消息发送请求,所述控制线程用于管理每一个消息发送请求及其对应的工作线程。


3.根据权利要求1所述的面向高性能计算机的海量计算节点资源监控管理方法,其特征在于,步骤2)中通过该工作线程选择一个正常的中间节点具体是指采用轮询法从所有中间节点构成的中间节点列表中依次选择一个正常的中间节点,且采用状态机记录各个中间节点的状态,状态机包括状态0、1两种状态以及事件1~3三种事件,状态0代表节点故障;状态1代表节点正常,事件1为控制节点发送PING消息给中间节点且得到正确返回值;事件2为控制节点发送PING消息给中间节点且无法得到返回值;事件3为控制节点向正常节点转发消息发送请求且无法得到返回消息,当发生事件1时,若状态机的原状态为状态0则变更为状态1,若状态机的原状态为状态1则保持状态不变;当发生事件2时,若状态机的原状态为状态0则保持状态不变,若状态机的原状态为状态1则变更为状态0;当发生事件3时,则状态机的原状态为状态1则变更为状态0。


4.根据权利要求1所述的面向高性能计算机的海量计算节点资源监控管理方法,其特征在于,步骤3)中等待由该中间节点返回的消息时,若等待超时仍未收到该中间节点返回的消息,则跳转执行步骤2)以重新选择下一个正常的中间节点处理该消息发送请求。


5.根据权利要求1所述的面向高性能计算机的海量计算节点资源监控管理方法,其特征在于,步骤3)中通过该工作线程向选择的中间节点转发该消息发送请求时,转发该消息发送请求的数据结构agent_t包括下述信息字段:
目标节点个数node_count,用于存储的本消息发送请求中的目标节点个数;
重新尝试标识retry,用于记录发送失败后是否需要进行重新尝试的标识;
目标节点链hostlist,用于记录目标节点链;
消息类型msg_type,用于记录需要发送的消息类型;
消息主体msg_args,用于记录需要发送的消息主体。


6.根据权利要求5所述的面向高性能计算机的海量计算节点资源监控管理方法,其特征在于,步...

【专利技术属性】
技术研发人员:戴屹钦卢凯董勇王睿伯张伟张文喆邬会军李佳鑫谢旻周恩强迟万庆陈娟
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1