一种面向HPC计算任务的作业安全运行预警系统及方法技术方案

技术编号:37454451 阅读:16 留言:0更新日期:2023-05-06 09:26
本发明专利技术公开了一种面向HPC计算任务的作业安全运行预警系统及方法,该系统包括多个客户端、服务端和预警端;多个客户端分别部署在HPC计算任务中的各运行节点处,用于采集各节点的实时节点运行信息;服务端部署在第一服务器中,用于对采集的实时节点运行信息进行数据处理并将其封装为预警系统可识别的数据格式;预警端部署在第二服务器中,用于识别处理后的节点数据,根据预设的预警规则和作业预警模型进行数据分析,分析各节点状态和作业运行状态,获取分析结果,根据分析结果对当前作业进行标记,对可能出现异常的作业进行预警。本发明专利技术通过上述系统对异常情况进行提前识别与定位,实现作业安全运行的提前预警,保障HPC计算任务的准确性。的准确性。的准确性。

【技术实现步骤摘要】
一种面向HPC计算任务的作业安全运行预警系统及方法


[0001]本专利技术涉及HPC计算
,尤其涉及一种面向HPC计算任务的作业安全运行预警方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成已经成为本领域一般技术人员所公知的现有技术。
[0003]高性能计算(HPC,High Performance Computing)是一种使用并行工作的强大处理器集群来处理海量多维数据集(大数据)且以极高速度解决复杂问题的技术,HPC系统通常包括由多个联网的高速计算机服务器组成的计算机集群(即HPC集群),在多个计算机服务器或处理器上同时运行多个任务,实现大规模并行计算,进而实现更快的运行速度,其中,计算机集群中的计算机称为节点,使用高性能的多核CPU,目前单个HPC集群中可能包括10万个或更多节点。
[0004]目前,在使用HPC计算机集群进行并计算任务时,只有在计算进程出现严重错误或计算任务结束后,用户或系统管理人员根据计算结果才能判断出计算过程中是否出现异常情况,延长了从出现异常到发现异常的时间,同时也大大增加了解决问题的时间,造成了人力、物力等资源的浪费。因此,在面向HPC计算任务时,实时、便捷、准确的预先发现并定位异常情况或问题,能够避免重大问题的产生,保障HPC计算任务的准确性。

技术实现思路

[0005]为解决上述现有技术的不足,本专利技术提供了一种面向HPC计算任务的作业安全运行预警方法及系统,通过采集HPC计算机集群各节点的实时运行数据,根据预先设置的预警规则和作业预警模型分析各节点的节点状态和作业运行状态,对异常情况进行提前识别与定位,实现作业安全运行的提前预警,避免重大问题的产生,保障HPC计算任务的准确性。
[0006]第一方面,本公开提供了一种面向HPC计算任务的作业安全运行预警系统,包括多个客户端、服务端和预警端;
[0007]多个客户端分别部署在HPC计算任务中的各运行节点处,用于采集在作业运行过程中各节点的实时节点运行信息;
[0008]服务端部署在第一服务器中,用于对采集的实时节点运行信息进行数据处理,将处理后的节点数据封装为预警系统可识别的数据格式;
[0009]预警端部署在第二服务器中,用于识别处理后的节点数据,根据预设的预警规则和作业预警模型进行数据分析,分析各节点的作业运行状态,获取各节点的分析结果,根据分析结果对当前作业进行标记,对可能出现异常的作业进行预警;
[0010]各运行节点分别与第一服务器进行通信,第一服务器与第二服务器进行通信。
[0011]进一步的技术方案,所述根据预设的预警规则和作业预警模型进行数据分析,包括:
[0012]通过预设的预警规则进行初次数据异常判断,若判定作业运行节点可能存在异常,则将该节点运行作业数据标记后,输入至作业预警模型;
[0013]基于作业预警模型,确定该节点运行作业可能存在的运行异常类型。
[0014]进一步的技术方案,所述预警规则为:若作业运行过程中运行作业的节点在设定时间内的资源利用率始终低于预设值,则判定该节点可能存在异常。
[0015]进一步的技术方案,根据HPC集群运行不同作业的历史数据及HPC集群运行不同作业时各作业运行节点的资源使用率,生成与不同作业运行一一对应的各作业运行节点资源需求特征,以此构建作业预警模型;
[0016]将标记后的节点运行作业数据输入作业预警模型中,通过匹配该节点运行作业数据的特征,确定该节点运行作业可能存在的运行异常类型。
[0017]第二方面,本公开提供了一种面向HPC计算任务的作业安全运行预警方法,包括:
[0018]针对HPC计算任务中的各运行节点,采集在作业运行过程中节点处的实时节点运行信息,该节点运行信息包括节点软硬件资源使用情况、节点日志信息;
[0019]对采集的实时节点运行信息进行数据处理,将处理后的节点数据封装为预警系统可识别的数据格式;
[0020]识别处理后的节点数据,根据预设的预警规则和作业预警模型进行数据分析,分析各节点的作业运行状态,获取各节点的分析结果,根据分析结果对当前作业进行标记,对可能出现异常的作业进行预警。
[0021]进一步的技术方案,所述根据预设的预警规则和作业预警模型进行数据分析,包括:
[0022]通过预设的预警规则进行初次数据异常判断,若判定作业运行节点可能存在异常,则将该节点运行作业数据标记后,输入至作业预警模型;
[0023]基于作业预警模型,确定该节点运行作业可能存在的运行异常类型。
[0024]进一步的技术方案,所述预警规则为:若作业运行过程中运行作业的节点在设定时间内的资源利用率始终低于预设值,则判定该节点可能存在异常。
[0025]进一步的技术方案,根据HPC集群运行不同作业的历史数据及HPC集群运行不同作业时各作业运行节点的资源使用率,生成与不同作业运行一一对应的各作业运行节点资源需求特征,以此构建作业预警模型;
[0026]将标记后的节点运行作业数据输入作业预警模型中,通过匹配该节点运行作业数据的特征,确定该节点运行作业可能存在的运行异常类型。
[0027]第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第二方面所述方法的步骤。
[0028]第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第二方面所述方法的步骤。
[0029]以上一个或多个技术方案存在以下有益效果:
[0030]本专利技术提供了一种面向HPC计算任务的作业安全运行预警系统及方法,通过采集HPC计算机集群各节点的实时运行数据,根据预先设置的预警规则和作业预警模型分析各节点的节点状态和作业运行状态,对异常情况进行提前识别与定位,实现作业安全运行的
提前预警,避免重大问题的产生,保障HPC计算任务的准确性。
附图说明
[0031]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0032]图1为本专利技术实施例一所述面向HPC计算任务的作业安全运行预警系统的结构示意图;
[0033]图2为本专利技术实施例一所述面向HPC计算任务的作业安全运行预警方法的流程图。
具体实施方式
[0034]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0035]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向HPC计算任务的作业安全运行预警系统,其特征是,包括多个客户端、服务端和预警端;多个客户端分别部署在HPC计算任务中的各运行节点处,用于采集在作业运行过程中各节点的实时节点运行信息;服务端部署在第一服务器中,用于对采集的实时节点运行信息进行数据处理,将处理后的节点数据封装为预警系统可识别的数据格式;预警端部署在第二服务器中,用于识别处理后的节点数据,根据预设的预警规则和作业预警模型进行数据分析,分析各节点的作业运行状态,获取各节点的分析结果,根据分析结果对当前作业进行标记,对可能出现异常的作业进行预警;各运行节点分别与第一服务器进行通信,第一服务器与第二服务器进行通信。2.如权利要求1所述的一种面向HPC计算任务的作业安全运行预警系统,其特征是,所述根据预设的预警规则和作业预警模型进行数据分析,包括:通过预设的预警规则进行初次数据异常判断,若判定作业运行节点可能存在异常,则将该节点运行作业数据标记后,输入至作业预警模型;基于作业预警模型,确定该节点运行作业可能存在的运行异常类型。3.如权利要求2所述的一种面向HPC计算任务的作业安全运行预警系统,其特征是,所述预警规则为:若作业运行过程中运行作业的节点在设定时间内的资源利用率始终低于预设值,则判定该节点可能存在异常。4.如权利要求2所述的一种面向HPC计算任务的作业安全运行预警系统,其特征是,根据HPC集群运行不同作业的历史数据及HPC集群运行不同作业时各作业运行节点的资源使用率,生成与不同作业运行一一对应的各作业运行节点资源需求特征,以此构建作业预警模型;将标记后的节点运行作业数据输入作业预警模型中,通过匹配该节点运行作业数据的特征,确定该节点运行作业可能存在的运行异常类型。5.一种面向HPC计算任务的作业安全运行预警方法,其特征是,包括:针对HPC计算任务中的各运行节点,采集在作业运行过程中节点处的实时节点运行信息,该节点运行信息包括节点软硬件...

【专利技术属性】
技术研发人员:潘景山郭猛涂阳刘辉
申请(专利权)人:山东省计算中心国家超级计算济南中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1