一种面向HPC计算任务的作业安全运行预警系统及方法技术方案

技术编号:37454451 阅读:32 留言:0更新日期:2023-05-06 09:26
本发明专利技术公开了一种面向HPC计算任务的作业安全运行预警系统及方法,该系统包括多个客户端、服务端和预警端;多个客户端分别部署在HPC计算任务中的各运行节点处,用于采集各节点的实时节点运行信息;服务端部署在第一服务器中,用于对采集的实时节点运行信息进行数据处理并将其封装为预警系统可识别的数据格式;预警端部署在第二服务器中,用于识别处理后的节点数据,根据预设的预警规则和作业预警模型进行数据分析,分析各节点状态和作业运行状态,获取分析结果,根据分析结果对当前作业进行标记,对可能出现异常的作业进行预警。本发明专利技术通过上述系统对异常情况进行提前识别与定位,实现作业安全运行的提前预警,保障HPC计算任务的准确性。的准确性。的准确性。

【技术实现步骤摘要】
一种面向HPC计算任务的作业安全运行预警系统及方法


[0001]本专利技术涉及HPC计算
,尤其涉及一种面向HPC计算任务的作业安全运行预警方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成已经成为本领域一般技术人员所公知的现有技术。
[0003]高性能计算(HPC,High Performance Computing)是一种使用并行工作的强大处理器集群来处理海量多维数据集(大数据)且以极高速度解决复杂问题的技术,HPC系统通常包括由多个联网的高速计算机服务器组成的计算机集群(即HPC集群),在多个计算机服务器或处理器上同时运行多个任务,实现大规模并行计算,进而实现更快的运行速度,其中,计算机集群中的计算机称为节点,使用高性能的多核CPU,目前单个HPC集群中可能包括10万个或更多节点。
[0004]目前,在使用HPC计算机集群进行并计算任务时,只有在计算进程出现严重错误或计算任务结束后,用户或系统管理人员根据计算结果才能判断出计算过程中是否出现异常情况,延长了从出现异常本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向HPC计算任务的作业安全运行预警系统,其特征是,包括多个客户端、服务端和预警端;多个客户端分别部署在HPC计算任务中的各运行节点处,用于采集在作业运行过程中各节点的实时节点运行信息;服务端部署在第一服务器中,用于对采集的实时节点运行信息进行数据处理,将处理后的节点数据封装为预警系统可识别的数据格式;预警端部署在第二服务器中,用于识别处理后的节点数据,根据预设的预警规则和作业预警模型进行数据分析,分析各节点的作业运行状态,获取各节点的分析结果,根据分析结果对当前作业进行标记,对可能出现异常的作业进行预警;各运行节点分别与第一服务器进行通信,第一服务器与第二服务器进行通信。2.如权利要求1所述的一种面向HPC计算任务的作业安全运行预警系统,其特征是,所述根据预设的预警规则和作业预警模型进行数据分析,包括:通过预设的预警规则进行初次数据异常判断,若判定作业运行节点可能存在异常,则将该节点运行作业数据标记后,输入至作业预警模型;基于作业预警模型,确定该节点运行作业可能存在的运行异常类型。3.如权利要求2所述的一种面向HPC计算任务的作业安全运行预警系统,其特征是,所述预警规则为:若作业运行过程中运行作业的节点在设定时间内的资源利用率始终低于预设值,则判定该节点可能存在异常。4.如权利要求2所述的一种面向HPC计算任务的作业安全运行预警系统,其特征是,根据HPC集群运行不同作业的历史数据及HPC集群运行不同作业时各作业运行节点的资源使用率,生成与不同作业运行一一对应的各作业运行节点资源需求特征,以此构建作业预警模型;将标记后的节点运行作业数据输入作业预警模型中,通过匹配该节点运行作业数据的特征,确定该节点运行作业可能存在的运行异常类型。5.一种面向HPC计算任务的作业安全运行预警方法,其特征是,包括:针对HPC计算任务中的各运行节点,采集在作业运行过程中节点处的实时节点运行信息,该节点运行信息包括节点软硬件...

【专利技术属性】
技术研发人员:潘景山郭猛涂阳刘辉
申请(专利权)人:山东省计算中心国家超级计算济南中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1