一种超算平台资源使用监控方法技术

技术编号:23604432 阅读:31 留言:0更新日期:2020-03-28 05:35
本发明专利技术提供一种超算平台资源使用监控方法,包括:确定当前计算资源上正在执行的用户任务进程的数量;当正在执行的用户进程的数量是否等于1;如果是,则确定调度系统是否已将当前计算资源分配,如果已分配,且当存在正在执行的用户任务进程,并且正在执行的用户任务进程对应的用户与调度系统为当前计算资源分配给的用户不一致时,则确定当前计算资源被该正在执行的用户任务进程错误提交。

A monitoring method for resource usage of supercomputing platform

【技术实现步骤摘要】
一种超算平台资源使用监控方法
本专利技术涉及超算领域,尤其涉及一种超算平台资源使用监控方法。
技术介绍
超算平台在各行各业中已经得到广泛应用。用户在向超算平台提交任务时,会申请所需计算资源,包括CPU和GPU等,超算平台的调度系统为该任务分配计算资源。在合理情况下,该计算资源被分配的用户提交的任务进程占用使用。但实际情况中存在不合理的情形,比如其他用户向该计算资源不合理提交任务进程导致冲突等问题。这些不合理情形需要超算平台的运维人员定期排查并解决,现有技术中对这些问题的排查主要依靠人工基于随意的逻辑进行,效率非常低下。
技术实现思路
本专利技术的目的在于提供一种超算平台资源使用监控方法,能够快速发现各种不合理资源使用问题,为运维人员采取后续措施提供帮助。为实现上述目的,本专利技术一方面提供一种超算平台资源使用监控方法,包括:确定当前计算资源上正在执行的用户任务进程的数量;当正在执行的用户进程的数量是否等于1;如果是,则确定调度系统是否已将当前计算资源分配,如果已分配,且当存在正在执行的用户任务进程,并本文档来自技高网...

【技术保护点】
1.一种超算平台资源使用监控方法,其特征在于,包括:/n确定当前计算资源上正在执行的用户任务进程的数量;/n当正在执行的用户进程的数量是否等于1;如果是,则确定调度系统是否已将当前计算资源分配,如果已分配,且当存在正在执行的用户任务进程,并且正在执行的用户任务进程对应的用户与调度系统为当前计算资源分配给的用户不一致时,则确定当前计算资源被该正在执行的用户任务进程错误提交。/n

【技术特征摘要】
1.一种超算平台资源使用监控方法,其特征在于,包括:
确定当前计算资源上正在执行的用户任务进程的数量;
当正在执行的用户进程的数量是否等于1;如果是,则确定调度系统是否已将当前计算资源分配,如果已分配,且当存在正在执行的用户任务进程,并且正在执行的用户任务进程对应的用户与调度系统为当前计算资源分配给的用户不一致时,则确定当前计算资源被该正在执行的用户任务进程错误提交。

【专利技术属性】
技术研发人员:周佳佳戴超群
申请(专利权)人:苏州交驰人工智能研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1