【技术实现步骤摘要】
一种高性能计算集群动态节点作业方法
本专利技术涉及高性能计算
,特别是涉及一种高性能计算集群动态节点作业方法。
技术介绍
高性能计算(Highperformancecomputing,缩写HPC)指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。高性能计算在航空航天、材料、数学、生物、物理、化学、气象、环境、金融、媒体、电磁等多个行业具有较为广泛和重要的作用。当前高性能计算75%以上的系统都是通过X86服务器以Clustre架构进行构建,随着服务器节点的增多和对集群效率、实测计算峰值、能耗等各方面要求的提升,传统的高性能计算集群存在诸多瓶颈,需要广大科研人员和集群维护人员进行研究和探索。通过基于Infiniband网络的无盘部署、标准化的作业提交流程和步骤、自动控制和调整计算节点开机数量可以实现:A、节能,基于无盘部署,计算节点不需要配置硬盘,降低了集群的功率开销和故障点,通过动态调整计算节点开关机数量,避免了大量计算节点开机空转的情况,提高了能源的使用率;B、性能,基于Infiniband网络的无盘部署,将系统镜像通过低延时的高速网络加载到各计算节点内存中,提升了计算节点开机速度,并且充分利用了RAMDISK的IOPS性能优势,极大提升计算任务在计算节点单机内部的收敛速率。C、标准化,由于高性能计算涉及行业较多、范围较广、海量的专业软件,导致了传统用户在使用高性能计算集群时需要去针对具体的计算软件进行了解学习后才能上机使用。通过对作业流程的重构和标准化,将海量的专业软件的作业提交流程 ...
【技术保护点】
一种高性能计算集群动态节点作业方法,其特征在于,包括如下步骤:步骤1:配置服务器,包括管理网络N1、计算网络N2和用户网络N3,以及用户网络N3和管理网络N1之间的安全防护网络F1、登陆节点L1、管理节点M1、若干计算节点CN;所述登陆节点、管理节点、计算节点分别与管理网络和计算网络建立通信连接;所述登陆节点和管理节点通过计算网络挂载共享存储S1;步骤2:在管理节点M1上安装并配置启动管理服务(Flexboot)、动态主机配置协议服务(DHCP)、文件传输协议服务(TFTP)、域名系统服务(DNS)、共享服务、认证服务以及作业调度,配置完成后启动计算节点;步骤3:用户网络N3中的用户,经过安全防护网络F1以安全外壳协议SSH登录到登陆节点L1上,通过SSH将需要计算的算例上传至登陆节点L1上的共享存储S1;步骤4:用户在登陆节点L1上通过作业调度中间件,指定作业参数完成作业脚本的生成并启动提交给M1的作业调度进行资源分配和计算;步骤5:管理节点M1收到登陆节点L1上用户提交的作业脚本后,首先将作业脚本中的函数调用请求交给管理节点中的Maui.d进行资源配额检查,如果配额不足则报错提示, ...
【技术特征摘要】
1.一种高性能计算集群动态节点作业方法,其特征在于,包括如下步骤:步骤1:配置服务器,包括管理网络N1、计算网络N2和用户网络N3,以及用户网络N3和管理网络N1之间的安全防护网络F1、登陆节点L1、管理节点M1、若干计算节点CN;所述登陆节点、管理节点、计算节点分别与管理网络和计算网络建立通信连接;所述登陆节点和管理节点通过计算网络挂载共享存储S1;步骤2:在管理节点M1上安装并配置启动管理服务(Flexboot)、动态主机配置协议服务(DHCP)、文件传输协议服务(TFTP)、域名系统服务(DNS)、共享服务、认证服务以及作业调度,配置完成后启动计算节点;步骤3:用户网络N3中的用户,经过安全防护网络F1以安全外壳协议SSH登录到登陆节点L1上,通过SSH将需要计算的算例上传至登陆节点L1上的共享存储S1;步骤4:用户在登陆节点L1上通过作业调度中间件,指定作业参数完成作业脚本的生成并启动提交给M1的作业调度进行资源分配和计算;步骤5:管理节点M1收到登陆节点L1上用户提交的作业脚本后,首先将作业脚本中的函数调用请求交给管理节点中的Maui.d进行资源配额检查,如果配额不足则报错提示,如果配额足够,则将作业脚本转交给M1上作业调度pbs_server进行调度;步骤6:管理节点M1的作业调度pbs_server收到作业脚本后,根据作业脚本要求的节点数、每节点核心数为作业分配进行计算的节点C1到Cn,如果节点数量不足,则将作业进行排队等待;如果节点数量足够,则根据作业脚本具体执行内容开始计算;步骤7:当C1到Cn完成计算后,释放物理内存、处理器等资源,并向M1的pbs_server反馈“所有核心均未占用,状态Free”的信号;M1的pbs_server对该信号进行记录,并允许后续作业在该节点上进行分配和计算;步骤8:用户可以通过安全文件传输协议SFTP从L1上将S1中存储的计算结果等信息取回到N3中,在本地电脑上打开进行处理和分析。2.根据权利要求1所述的高性能计算集群动态节点作业方法,其特征在于:管理网络N1为以太网络,主要负责计算节点开关机控制、作业调度数据传输、系统监控等功能,计算网络N1为Infiniband网络,提高设备的扩展性、数据的传输速率及通信延迟,主要负责数据及存储的IO、操作系统镜像分发、计算软件工作时各进程相互通信与数据同步等功能,用户网络N3是高性能计算机用户所在的网络,安全防护F1为防火墙、UTM或路由器设备,提供用户网络到管理网络的端口映射、访问权限管理、异常流量监测、攻击防护等功能,登录节点L1、管理节点M1、若干计算节点CN统一为同一处理器架构,处理器具有完全相同的指令集,根据用户实际使用需求和高性能计算机总体计算性能要求,登录节点L1、管理节点M1、若干计算节点CN可以通过集群(Cluster)方式进行横向扩展,共享存储S1一般为基于Infiniband的NFS服务器其包含底层的硬盘柜或磁盘阵列,或基于Infiniband的分布式存储系统,对外提供一个统一的文件系统空间,并且支持用户权限控制和容量配额。3.根据权利要求1所述的高性能计算集群动态节点作业方法,其特征在于:系统第一次部署时将登陆节点L1的操作系统复制为镜像文件J1,并修改J1中包含的相关个性化参数配置文件为通用配置文件,其中包括修改网卡配置文件,去掉MAC地址、UUID等唯一信息,修改为DHCP引导;将主机名修改为DHCP自动获取、将硬盘的挂载方式修改为设备名方式进行挂载、将系统环境变量存放目录修改为共享存储S1上特定目录等。4.根据权利要求1所述的高性能计算集群动态节点作业方法,其特征在于:所述...
【专利技术属性】
技术研发人员:谢滔,
申请(专利权)人:成都中讯创新科技股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。