一种高性能计算集群动态节点作业方法技术

技术编号:15987615 阅读:100 留言:0更新日期:2017-08-12 07:03
本发明专利技术提供了一种高性能计算集群动态节点作业方法,其基于Infiniband网络提供统一的文件系统空间和无盘启动,基于以太网提供集群作业调度、开关机控制、系统监控等功能。通过上述方式,本发明专利技术能够提高高性能计算集群部署效率,降低故障率,简化作业提交,提高能源和资金利用率,提升使用效率和性能。

【技术实现步骤摘要】
一种高性能计算集群动态节点作业方法
本专利技术涉及高性能计算
,特别是涉及一种高性能计算集群动态节点作业方法。
技术介绍
高性能计算(Highperformancecomputing,缩写HPC)指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。高性能计算在航空航天、材料、数学、生物、物理、化学、气象、环境、金融、媒体、电磁等多个行业具有较为广泛和重要的作用。当前高性能计算75%以上的系统都是通过X86服务器以Clustre架构进行构建,随着服务器节点的增多和对集群效率、实测计算峰值、能耗等各方面要求的提升,传统的高性能计算集群存在诸多瓶颈,需要广大科研人员和集群维护人员进行研究和探索。通过基于Infiniband网络的无盘部署、标准化的作业提交流程和步骤、自动控制和调整计算节点开机数量可以实现:A、节能,基于无盘部署,计算节点不需要配置硬盘,降低了集群的功率开销和故障点,通过动态调整计算节点开关机数量,避免了大量计算节点开机空转的情况,提高了能源的使用率;B、性能,基于Infiniband网络的无盘部署,将系统镜像通过低延时的高速网络加载到各计算节点内存中,提升了计算节点开机速度,并且充分利用了RAMDISK的IOPS性能优势,极大提升计算任务在计算节点单机内部的收敛速率。C、标准化,由于高性能计算涉及行业较多、范围较广、海量的专业软件,导致了传统用户在使用高性能计算集群时需要去针对具体的计算软件进行了解学习后才能上机使用。通过对作业流程的重构和标准化,将海量的专业软件的作业提交流程通过中间件固定为同样的步骤和流程,极大简化了上机操作步骤,让传统用户能快速的入手并将集群充分使用起来。D、节约,最大程度减少不必要的软硬件投入(如计算节点硬盘、计算节点操作系统),提升资金使用率;E、低故障率,传统高性能计算集群在每个计算节点上需要安装1块硬盘用于存放操作系统。机械硬盘价格便宜,使用年限久,但性能较差;固态硬盘性能较好,但成本太高,寿命太短。并且当集群意外断电时极易导致操作系统损坏。通过无盘部署,有效避免了由硬盘导致的故障,极大降低集群故障率。F、高效率,传统高性能计算集群需要对所有的节点安装操作系统和配置环境变量才能工作,本申请所描述方式无需该环节,极大减少了集群部署时间,提升了集群部署的效率。
技术实现思路
本专利技术主要解决的技术问题是提供一种高性能计算集群动态节点作业方法,能够提高高性能计算集群部署效率,降低故障率,简化作业提交,提高能源和资金利用率,提升使用效率和性能。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种高性能计算集群动态节点作业方法,其特征在于,包括如下步骤:步骤1:配置服务器,包括管理网络N1、计算网络N2和用户网络N3,以及用户网络N3和管理网络N1之间的安全防护网络F1、登陆节点L1、管理节点M1、若干计算节点CN;所述登陆节点、管理节点、计算节点分别与管理网络和计算网络建立通信连接;所述登陆节点和管理节点通过计算网络挂载共享存储S1;步骤2:在管理节点M1上安装并配置启动管理服务(Flexboot)、动态主机配置协议服务(DHCP)、文件传输协议服务(TFTP)、域名系统服务(DNS)、共享服务、认证服务以及作业调度,配置完成后启动计算节点;步骤3:用户网络N3中的用户,经过安全防护网络F1以安全外壳协议SSH登录到登陆节点L1上,通过SSH将需要计算的算例上传至登陆节点L1上的共享存储S1;步骤4:用户在登陆节点L1上通过作业调度中间件,指定作业参数完成作业脚本的生成并启动提交给M1的作业调度进行资源分配和计算;步骤5:管理节点M1收到登陆节点L1上用户提交的作业脚本后,首先将作业脚本中的函数调用请求交给管理节点中的Maui.d进行资源配额检查,如果配额不足则报错提示,如果配额足够,则将作业脚本转交给M1上作业调度pbs_server进行调度;步骤6:管理节点M1的作业调度pbs_server收到作业脚本后,根据作业脚本要求的节点数、每节点核心数为作业分配进行计算的节点C1到Cn,如果节点数量不足,则将作业进行排队等待;如果节点数量足够,则根据作业脚本具体执行内容开始计算;步骤7:当C1到Cn完成计算后,释放物理内存、处理器等资源,并向M1的pbs_server反馈“所有核心均未占用,状态Free”的信号;M1的pbs_server对该信号进行记录,并允许后续作业在该节点上进行分配和计算;步骤8:用户可以通过安全文件传输协议SFTP从L1上将S1中存储的计算结果等信息取回到N3中,在本地电脑上打开进行处理和分析。优选地,管理网络N1为以太网络,主要负责计算节点开关机控制、作业调度数据传输、系统监控等功能,计算网络N1为Infiniband网络,提高设备的扩展性、数据的传输速率及通信延迟,主要负责数据及存储的IO、操作系统镜像分发、计算软件工作时各进程相互通信与数据同步等功能,用户网络N3是高性能计算机用户所在的网络,安全防护F1为防火墙、UTM或路由器设备,提供用户网络到管理网络的端口映射、访问权限管理、异常流量监测、攻击防护等功能,登录节点L1、管理节点M1、若干计算节点CN统一为同一处理器架构(如X86架构、MIPS架构、ARM架构、Power架构、Spark架构等),处理器具有完全相同的指令集,根据用户实际使用需求和高性能计算机总体计算性能要求,登录节点L1、管理节点M1、若干计算节点CN可以通过集群(Cluster)方式进行横向扩展,共享存储S1一般为基于Infiniband的NFS服务器其包含底层的硬盘柜或磁盘阵列,或基于Infiniband的分布式存储系统,对外提供一个统一的文件系统空间,并且支持用户权限控制和容量配额。优选地,系统第一次部署时将登陆节点L1的操作系统复制为镜像文件J1,并修改J1中包含的相关个性化参数配置文件为通用配置文件,其中包括修改网卡配置文件,去掉MAC地址、UUID等唯一信息,修改为DHCP引导;将主机名修改为DHCP自动获取、将硬盘的挂载方式修改为设备名方式进行挂载、将系统环境变量存放目录修改为共享存储S1上特定目录等。所述计算节点的启动采用无盘启动方式,具体步骤包括:步骤1:将C1(或Cn)开机,设置为默认PXE引导,PXE默认设备为主机通道适配器(HCA),采用FlexBoot模式;FlexBoot初始化HCA卡,检测端口协议及状态,以Infiniband方式启动端口,并以广播的方式发送DHCP客户端(Client)请求报文;步骤2:管理节点M1的DHCP服务器从Infiniband网络收到请求报文后,将C1的IP地址、TFTP服务器、网络引导启动镜像目录发送给C1;C1接收到M1发出的报文后,根据收到的报文启动Infiniband网络,并从M1的TFTP服务器中下载启动镜像目录并加载到内存中,所请求的镜像目录内包含默认的启动镜像名称J1、默认启动镜像镜像时间等信息,通过C1上选择启动J1或者超过默认时间后自动选择启动J1,并向M1发送请求J1的报文;步骤3:M1收到C1请求J1的报文后,将J1通过TFTP服务器发送给C1;C1的FlexBoot接本文档来自技高网
...
一种高性能计算集群动态节点作业方法

【技术保护点】
一种高性能计算集群动态节点作业方法,其特征在于,包括如下步骤:步骤1:配置服务器,包括管理网络N1、计算网络N2和用户网络N3,以及用户网络N3和管理网络N1之间的安全防护网络F1、登陆节点L1、管理节点M1、若干计算节点CN;所述登陆节点、管理节点、计算节点分别与管理网络和计算网络建立通信连接;所述登陆节点和管理节点通过计算网络挂载共享存储S1;步骤2:在管理节点M1上安装并配置启动管理服务(Flexboot)、动态主机配置协议服务(DHCP)、文件传输协议服务(TFTP)、域名系统服务(DNS)、共享服务、认证服务以及作业调度,配置完成后启动计算节点;步骤3:用户网络N3中的用户,经过安全防护网络F1以安全外壳协议SSH登录到登陆节点L1上,通过SSH将需要计算的算例上传至登陆节点L1上的共享存储S1;步骤4:用户在登陆节点L1上通过作业调度中间件,指定作业参数完成作业脚本的生成并启动提交给M1的作业调度进行资源分配和计算;步骤5:管理节点M1收到登陆节点L1上用户提交的作业脚本后,首先将作业脚本中的函数调用请求交给管理节点中的Maui.d进行资源配额检查,如果配额不足则报错提示,如果配额足够,则将作业脚本转交给M1上作业调度pbs_server进行调度;步骤6:管理节点M1的作业调度pbs_server收到作业脚本后,根据作业脚本要求的节点数、每节点核心数为作业分配进行计算的节点C1到Cn,如果节点数量不足,则将作业进行排队等待;如果节点数量足够,则根据作业脚本具体执行内容开始计算;步骤7:当C1到Cn完成计算后,释放物理内存、处理器等资源,并向M1的pbs_server反馈“所有核心均未占用,状态Free”的信号;M1的pbs_server对该信号进行记录,并允许后续作业在该节点上进行分配和计算;步骤8:用户可以通过安全文件传输协议SFTP从L1上将S1中存储的计算结果等信息取回到N3中,在本地电脑上打开进行处理和分析。...

【技术特征摘要】
1.一种高性能计算集群动态节点作业方法,其特征在于,包括如下步骤:步骤1:配置服务器,包括管理网络N1、计算网络N2和用户网络N3,以及用户网络N3和管理网络N1之间的安全防护网络F1、登陆节点L1、管理节点M1、若干计算节点CN;所述登陆节点、管理节点、计算节点分别与管理网络和计算网络建立通信连接;所述登陆节点和管理节点通过计算网络挂载共享存储S1;步骤2:在管理节点M1上安装并配置启动管理服务(Flexboot)、动态主机配置协议服务(DHCP)、文件传输协议服务(TFTP)、域名系统服务(DNS)、共享服务、认证服务以及作业调度,配置完成后启动计算节点;步骤3:用户网络N3中的用户,经过安全防护网络F1以安全外壳协议SSH登录到登陆节点L1上,通过SSH将需要计算的算例上传至登陆节点L1上的共享存储S1;步骤4:用户在登陆节点L1上通过作业调度中间件,指定作业参数完成作业脚本的生成并启动提交给M1的作业调度进行资源分配和计算;步骤5:管理节点M1收到登陆节点L1上用户提交的作业脚本后,首先将作业脚本中的函数调用请求交给管理节点中的Maui.d进行资源配额检查,如果配额不足则报错提示,如果配额足够,则将作业脚本转交给M1上作业调度pbs_server进行调度;步骤6:管理节点M1的作业调度pbs_server收到作业脚本后,根据作业脚本要求的节点数、每节点核心数为作业分配进行计算的节点C1到Cn,如果节点数量不足,则将作业进行排队等待;如果节点数量足够,则根据作业脚本具体执行内容开始计算;步骤7:当C1到Cn完成计算后,释放物理内存、处理器等资源,并向M1的pbs_server反馈“所有核心均未占用,状态Free”的信号;M1的pbs_server对该信号进行记录,并允许后续作业在该节点上进行分配和计算;步骤8:用户可以通过安全文件传输协议SFTP从L1上将S1中存储的计算结果等信息取回到N3中,在本地电脑上打开进行处理和分析。2.根据权利要求1所述的高性能计算集群动态节点作业方法,其特征在于:管理网络N1为以太网络,主要负责计算节点开关机控制、作业调度数据传输、系统监控等功能,计算网络N1为Infiniband网络,提高设备的扩展性、数据的传输速率及通信延迟,主要负责数据及存储的IO、操作系统镜像分发、计算软件工作时各进程相互通信与数据同步等功能,用户网络N3是高性能计算机用户所在的网络,安全防护F1为防火墙、UTM或路由器设备,提供用户网络到管理网络的端口映射、访问权限管理、异常流量监测、攻击防护等功能,登录节点L1、管理节点M1、若干计算节点CN统一为同一处理器架构,处理器具有完全相同的指令集,根据用户实际使用需求和高性能计算机总体计算性能要求,登录节点L1、管理节点M1、若干计算节点CN可以通过集群(Cluster)方式进行横向扩展,共享存储S1一般为基于Infiniband的NFS服务器其包含底层的硬盘柜或磁盘阵列,或基于Infiniband的分布式存储系统,对外提供一个统一的文件系统空间,并且支持用户权限控制和容量配额。3.根据权利要求1所述的高性能计算集群动态节点作业方法,其特征在于:系统第一次部署时将登陆节点L1的操作系统复制为镜像文件J1,并修改J1中包含的相关个性化参数配置文件为通用配置文件,其中包括修改网卡配置文件,去掉MAC地址、UUID等唯一信息,修改为DHCP引导;将主机名修改为DHCP自动获取、将硬盘的挂载方式修改为设备名方式进行挂载、将系统环境变量存放目录修改为共享存储S1上特定目录等。4.根据权利要求1所述的高性能计算集群动态节点作业方法,其特征在于:所述...

【专利技术属性】
技术研发人员:谢滔
申请(专利权)人:成都中讯创新科技股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1