当前位置: 首页 > 专利查询>北京大学专利>正文

一种细粒度的高性能云资源管理调度方法技术

技术编号:18553407 阅读:67 留言:0更新日期:2018-07-28 10:38
本发明专利技术公布了一种细粒度的高性能云资源管理调度方法,通过限制用户登录计算节点、按核心与内存同比例资源调度、限制每个GPU使用CPU核数、作业结束释放占用资源以及SSH登陆使用资源管理、登录节点资源限制等方式,可用来改进SLURM作业调度系统中任务按照CPU核心进行分配时的内存和GPU资源的管理,并实现对用户SSH登录的资源进行Cgroup限制,从而完善基于SLURM的资源调度系统,使得高性能云平台资源调度更加高效与合理。

【技术实现步骤摘要】
一种细粒度的高性能云资源管理调度方法
本专利技术涉及高性能计算技术,尤其涉及一种细粒度的高性能云资源管理调度方法。
技术介绍
高性能计算通常使用并行化技术来高效、快速并可靠地运行应用程序,通常使用多个处理器(作为单个机器的一部分)或者某一集群中组织的多台计算机并行执行同一个作业,以达到单个机器无法达到的性能。高性能计算主要用于处理复杂的计算问题,可应用在大规模科学计算的环境中,主要涉及天气预报、核武器研究、核材料储存仿真、石油勘探与油储模拟、生物信息技术以及基因测序等。SLURM(SimpleLinuxUtilityforResourceManagement,Linux平台简单实用资源管理工具)是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统。SLURM维护着一个待处理的作业的队列并管理此作业的整体资源利用。SLURM还以一种排他的方式管理可用的计算节点,将作业分发给一组已分配的节点来执行作业并监视平行作业直至完成。SLURM资源管理模块主要负责对系统资源进行管理、分配和收集,在主控制节点即管理节点上会有中心守护进程(slurmctld)驻留,在计算节点上会有本文档来自技高网...

【技术保护点】
1.一种云资源管理调度方法,基于SLURM资源调度,通过限制用户登录计算节点、按核心与内存同比例资源调度、作业结束释放占用资源、SSH登录资源管理、限制GPU使用CPU核数、登录节点资源限制方式,形成细粒度高性能的资源管理调度;具体地:A.限制用户登录计算节点,当用户没有正在运行的作业时,不允许该用户登录计算节点;用户首先通过提交作业申请资源;用户只有在当前节点有正在运行的作业才能登录当前的节点;B.按CPU核心与内存同比例进行资源分配调度,采用内存资源与CPU核心绑定的方式对系统资源进行分配,用户申请的内存总数根据申请的CPU核心数进行调整,不允许用户另外申请内存资源;C.SSH登录资源管理...

【技术特征摘要】
1.一种云资源管理调度方法,基于SLURM资源调度,通过限制用户登录计算节点、按核心与内存同比例资源调度、作业结束释放占用资源、SSH登录资源管理、限制GPU使用CPU核数、登录节点资源限制方式,形成细粒度高性能的资源管理调度;具体地:A.限制用户登录计算节点,当用户没有正在运行的作业时,不允许该用户登录计算节点;用户首先通过提交作业申请资源;用户只有在当前节点有正在运行的作业才能登录当前的节点;B.按CPU核心与内存同比例进行资源分配调度,采用内存资源与CPU核心绑定的方式对系统资源进行分配,用户申请的内存总数根据申请的CPU核心数进行调整,不允许用户另外申请内存资源;C.SSH登录资源管理:用户申请到资源之后,通过SSH的方式登录到计算节点,此时用户占用的资源全部归并到用户作业申请到的资源中;如果用户在当前计算节点有多个作业,则将当前SSH登录占用的资源归并到用户任一作业申请到的资源中;D.作业结束释放占用资源:当用户作业取消或完成时,如果用户在该计算节点没有其他正在运行的作业,则杀死该用户在该计算节点上的所有进程。E.限制GPU使用CPU核数:当申请GPU资源时,根据申请GPU的个数限制能申请的CPU个数;当用户作业申请的CPU与GPU比例超过限定时,禁止作业运行;F.限制登录节点资源,不允许用户在登录节点运行大规模程序:在登录节点实时监控CPU占用率高的进程,对这些进程进行CPU资源限制。2.如权利要求1所述云资源管理调度方法,其特征是,B中内存资源具体通过式1计算得到:每核心内存=节点总内存/总核心数(式1)从而使得用户申请的内存总数根据申请到的核心数进行调整。3.如权利要求1所述云资源管理调度方法,其特征是,A具体通过配置SLURM的pam_slurm_adopt插件,使得用户在没有正在运行的作业的情况下不允许登录计算节点;所述pam_slurm_adopt插件在用户没有作业时阻止用户登录计算节点,并在用户有作业运行情况下,追踪SSH登录计算节点所使用的资源;具体执行如下操作:步骤11:配置SLURM,允许使用pam_slurm_adopt插件,在slurm.conf文件中增加UsePAM=1;步骤12:在/etc/pam.d/sshd中,添加pam_slurm_adopt.so插件的使用;步骤13:修改/etc/pam.d/password-auth文件,使得pam_slurm_adopt.so插件能够正常使用。4.如权利要求1所述云资源管理调度方法,其特征是,B按照核心与内存同比例分配系统资源,具体执行如下操作:步骤21:在SLURM中添加对Cgroup的使用,修改slurm.conf文件,使其通过proctrack/cgroup插件允许Cgroup追踪作业资源;通过task/cgroup插件进行作业管理;通过jobacct_gather/...

【专利技术属性】
技术研发人员:马银萍樊春李若淼杨宏辉马皓
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1