监测应用执行性能的方法、装置及高性能计算系统制造方法及图纸

技术编号:14485084 阅读:95 留言:0更新日期:2017-01-26 17:45
本发明专利技术公开了监测应用执行性能的方法、装置及高性能计算系统。其中,监测应用执行性能的方法包括下述步骤。获取对应执行应用的计算节点的节点列表。基于该节点列表,获取执行应用的每个计算节点对应的进程列表和函数列表。基于所获取的每个进程列表,提取其中与应用关联的进程项。从每个关联的进程项对应的函数列表中,提取与该进程项关联的函数项。根据所提取与应用关联的进程项和与每个提取的进程项关联的函数项,监测应用的执行性能。

【技术实现步骤摘要】

本专利技术涉及云计算领域,尤其涉及监测应用执行性能的方法、装置及高性能计算系统
技术介绍
在例如高性能计算等云计算领域中,用户通常将待执行的应用(例如高性能计算的一项计算作业)分配到服务器集群中一个或多个计算节点来执行。目前,执行计算应用的硬件性能越来越高,这极大提高了对作业的执行效率。另外,在一项作业被提交到服务器集群后,用户还需要了解关于该作业的执行情况。现有的作业管理系统通常只能查询关于应用的总体运行状态(即,退出、挂起、排队和运行)。换言之,现有的作业管理系统并不能监测应用执行性能。因此,本专利技术提供一种新的监测应用执行性能的技术方案。
技术实现思路
为此,本专利技术提供一种新的监测应用执行性能的方案,有效的解决了上面至少一个问题。根据本专利技术的一个方面,提供一种监测应用执行性能的方法,适于在计算设备中执行。该应用适于在服务器集群中执行。该服务器集群包括多个计算节点。每个计算节点包括一个或多个适于被进程占用的计算单元。该方法包括下述步骤。获取与执行应用的计算节点对应的节点列表。基于该节点列表,获取执行应用的每个计算节点对应的进程列表和函数列表。基于所获取的每个进程列表,提取其中与应用关联的进程项。从每个关联的进程对应的函数列表中,提取与该进程项关联的函数项。根据所提取与应用关联的进程项和与每个提取的进程项关联的函数项,监测应用的执行性能。可选地,在根据本专利技术的监测应用执行性能的方法中,进程项包括下述中至少一部分:进程标识、进程名称、进程状态、对所占用的计算单元的使用率、内存使用量、内存占用率、进程持续时间、父进程标识、所占用的计算单元的标识、交换区(swap)的使用量和进程创建时间。函数项包括:函数名称、该函数所属的执行模块的名称、单位时间内对该函数累计的采样次数、和该函数的采样次数占执行该函数的进程所在的计算节点在该单位时间内对函数采样的总次数的比例。可选地,根据本专利技术的监测应用执行性能的方法还包括获取执行应用的计算节点的异常运行状态,其中,每个计算节点的异常运行状态包括下述中至少一种:内存使用量超过第一阈值并使用交换区(swap),代码向量化(VEC)比率低于第二阈值,指令集执行(AVX)比率低于第三阈值,CPU使用率超过第四阈值且浮点运算速率(Gflops)低于第五阈值。在获取到执行应用的任一个计算节点的异常运行状态时,根据本专利技术的监测应用执行性能的方法还包括根据所提取与所述应用关联的进程项和与每个提取的进程项关联的函数项,判断引起该计算节点运行异常的进程项和函数项,以便定位应用的性能瓶颈。可选地,在根据本专利技术的监测应用执行性能的方法中,从每个关联的进程项所占用的计算单元所对应的函数列表中,提取与该进程项关联的函数项的步骤包括:根据进程项的进程标识,从所对应的函数列表中提取与该进程名称相关联的函数项。服务器集群为高性能计算集群。根据本专利技术的又一个方面,提供一种监测应用执行性能的装置,适于驻留在计算设备中。该应用适于在服务器集群中执行。服务器集群例如为高性能计算集群。该服务器集群包括多个计算节点。每个计算节点包括一个或多个适于被进程占用的计算单元。该装置包括第一获取单元、第二获取单元、第一筛选单元、第二筛选单元和监测单元。其中,第一获取单元适于获取与执行应用的计算节点对应的节点列表。第二获取单元基于该节点列表,适于获取执行应用的每个计算节点对应的进程列表和函数列表。第一筛选单元基于所获取的每个进程列表,提取其中与应用关联的进程项。第二筛选单元从每个关联的进程对应的函数列表中,提取与该进程项关联的函数项。监测单元适于根据所提取与应用关联的进程项和与每个提取的进程项关联的函数项,监测应用的执行性能。根据本专利技术的又一个方面,提供一种高性能计算系统,包括服务器集群、作业管理设备和驻留有根据本专利技术的监测应用执行性能的装置的计算设备。其中,服务器集群包括多个计算节点。每个计算节点中驻留有获取计算节点中进程信息和函数信息的性能收集器。作业管理设备适于接收应用提交终端所提交的待执行的应用,并将该待执行的应用分配给至少一个计算节点。计算设备适于从性能收集器获取进程列表和函数列表。综上,根据本专利技术的监测应用(作业)执行性能的技术方案,能够获取多个执行应用的计算节点中每个计算单元的进程列表和函数列表。进而,本专利技术的技术方案,可以从进程列表和函数列表中提取与本应用相关的进程项和函数项。在此基础上,本专利技术的技术方案可以从执行性能角度,监测应用的执行过程。进一步,本专利技术的技术方案还可以获取执行应用的计算节点的异常运行状态,根据所提取的进程项和函数项,确定引起计算节点运行异常的进程项和函数项,以便定位应用的性能瓶颈。附图说明为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。图1示出了根据本专利技术一些实施例的高性能计算系统100的示意图;图2示出了根据本专利技术一些实施例的监测应用执行性能的装置200的示意图;图3A示出了一个处于异常运行状态的计算节点的性能指标界面示意图;图3B示出了又一个处于异常运行状态的计算节点的性能指标界面示意图;图3C示出了又一个处于异常运行状态的计算节点的性能指标界面示意图;图4示出了根据本专利技术一些实施例的监测应用执行性能的方法400的流程图;以及图5示出了根据本专利技术一些实施例的监测应用执行性能的方法500的流程图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术一些实施例的高性能计算系统100的示意图。如图1所示,系统100包括作业管理设备110、用于监测应用执行性能的计算设备120和多个执行计算任务的计算节点130-1、130-2...130-N。这里,每个计算节点可以是一个独立的计算实体(例如一台高性能计算机或者云网络中一台服务器实体)。总体而言,系统100可以将用户提交的应用(作业),分配给至少一个计算节点来执行。取决于期望的配置,每个计算节点可以包括一个或多个处理器。每个处理器可以是单核或多核配置。这里,处理器的每个核可以称为一个计算单元。一个或多个进程可以占用一个计算单元来执行运算。本专利技术的计算节点可以驻留有性能收集器。这里,性能收集器可以收集关于计算节点的各种性能指标特征。性能指标特征例如包括处理器(或者以处理器每个核为单位)使用率、内存使用率、网络发送和接收速度、磁盘读写速度、代码向量化比率和指令集执行比率等,但不限于此。在根据本专利技术一个实施例中,驻留在一个计算节点的性能收集器可以被配置为通过调用该计算节点的操作系统(例如Linux或Windowsserver等)提供的标准接口(API)来获取性能指标特征。另外,性能收集器还可以是公知的各种可以收集计算节点性能数据的应用,这里不再赘述本文档来自技高网...
监测应用执行性能的方法、装置及高性能计算系统

【技术保护点】
一种监测应用执行性能的方法,适于在计算设备中执行,该应用适于在服务器集群中执行,该服务器集群包括多个计算节点,每个计算节点包括一个或多个适于被进程占用的计算单元,该方法包括:获取与执行所述应用的计算节点对应的节点列表;基于该节点列表,获取执行所述应用的每个计算节点对应的进程列表和函数列表;基于所获取的每个进程列表,提取其中与所述应用关联的进程项;从每个关联的进程项对应的函数列表中,提取与该进程项关联的函数项;根据所提取与所述应用关联的进程项和与每个提取的进程项关联的函数项,监测所述应用的执行性能。

【技术特征摘要】
1.一种监测应用执行性能的方法,适于在计算设备中执行,该应用适于在服务器集群中执行,该服务器集群包括多个计算节点,每个计算节点包括一个或多个适于被进程占用的计算单元,该方法包括:获取与执行所述应用的计算节点对应的节点列表;基于该节点列表,获取执行所述应用的每个计算节点对应的进程列表和函数列表;基于所获取的每个进程列表,提取其中与所述应用关联的进程项;从每个关联的进程项对应的函数列表中,提取与该进程项关联的函数项;根据所提取与所述应用关联的进程项和与每个提取的进程项关联的函数项,监测所述应用的执行性能。2.如权利要求1所述的方法,其中,所述进程项包括下述中至少一部分:进程标识、进程名称、进程状态、对所占用的计算单元的使用率、内存使用量、内存占用率、进程持续时间、父进程标识、所占用的计算单元的标识、交换区(swap)的使用量和进程创建时间。3.如权利要求1或2所述的方法,其中,所述函数项包括:函数名称、该函数所属的执行模块的名称、单位时间内对单位时间内对该函数累计的采样次数、和该函数的采样次数占执行该函数的进程所在的计算节点在该单位时间内对函数采样的总次数的比例。4.如权利要求1-3中任一项所述的方法,还包括:获取执行所述应用的计算节点的异常运行状态,其中,每个计算节点的异常运行状态包括下述中至少一种:内存使用量超过第一阈值并使用交换区(swap),代码向量化(VEC)比率低于第二阈值,指令集执行(AVX)比率低于第三阈值,和CPU使用率超过第四阈值且浮点运算速率(Gflops)低于第五阈值。5.如权利要求4所述的方法,在获取到执行所述应用的任一个计算节点的异常运行状态时,该方法还包括:根据所提取与所述应用关联的进程项和与每个提取的进程项关联的函数项,判断引起该计算节点运行异...

【专利技术属性】
技术研发人员:吴广辉陈健黄新平王宁张华
申请(专利权)人:北京并行科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1