一种基于应用相似性的超级计算机作业失败主动预测方法技术

技术编号:32650129 阅读:26 留言:0更新日期:2022-03-12 18:40
本发明专利技术公开了一种基于应用相似性的超级计算机作业失败主动预测方法,属于超级计算机领域,包括步骤:S1,从作业日志中提取特征数据,并加入作业路径数据后一起作预处理,然后作为机器学习算法模型的输入特征;S2,在机器学习算法模型对输入特征数据进行处理后,实现主动预测作业失败状态。本发明专利技术挖掘出了能够准确描述作业应用属性的特征,具有很好的预测提升效果;采用机器学习算法寻找作业失败预测方法,提升预测模型的鲁棒性,尤其适应非线性数据;对作业应用属性的聚类方法,显著降低聚类计算开销,降低误差;实现预测效率高,能够实际应用于大型超级计算机。应用于大型超级计算机。应用于大型超级计算机。

【技术实现步骤摘要】
一种基于应用相似性的超级计算机作业失败主动预测方法


[0001]本专利技术涉及超级计算机领域,更为具体的,涉及一种基于应用相似性的超级计算机作业失败主动预测方法。

技术介绍

[0002]大量作业在超级计算机中提交并等待执行,但在作业的执行过程中可能会因为各种原因而导致作业失败,比如系统资源无法满足作业需求,内存错误以及软、硬件故障。与此同时,作业失败会造成系统资源浪费、延长排队中作业等待时间等不良影响,采用作业失败预测能够对用于减缓这些失败所造成的影响,因此如何有效预测作业失败对提升系统可靠性和系统资源利用率至关重要。
[0003]目前,对于超级计算机(高性能计算系统)的软、硬件故障的预测方法较多,而针对作业失败预测方法研究较为匮乏,并且主要采用一些统计学方法,如线性分析,二次判别分析进行预测作业失败,这类方法的核心思想是尝试寻找作业失败的线性可分关系,但是效果并不理想,因为这些方法需要大量的数据样本,计算效率不高。此外,用于预测失败的特征多为资源、性能属性,这些属性复杂多变,并不能够准确描述作业的应用特征,这也是采用线性分析思想的预测本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,包括步骤:S1,从作业日志中提取特征数据,并加入作业路径数据后一起作预处理,然后作为机器学习算法模型的输入特征;S2,在机器学习算法模型对输入特征数据进行处理后,实现主动预测作业失败状态。2.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,所述作业路径数据来自于额外监控信息。3.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,在步骤S1中所述预处理包括采用聚类预处理。4.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,在步骤S2中所述对输入特征数据进行处理包括粗粒度预测处理,将处理好的训练数据信息与多种不同的机器学习模型进行拟合训练,根据目的需求选择训练效果最好的预测模型。5.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,在步骤S2中所述对输入特征数据进行处理包括细粒度预测处理,每个用户单独使用机器学习算法构建预测模型,动态选择最优预测模型,以适应不同用户需求。6.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,在步骤S1中,在所述预处理后,且作为机器学习算法模型的输入特征前包括过滤子步骤:过滤用户作业,过滤掉对用户而言无意义的作业。7.根据权利要求3所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,所述聚类预处理包括作业名聚类子步骤:S101,从语义优先级的角度出发去除冗余信息,然后根据作业名组成模式...

【专利技术属性】
技术研发人员:喻杰鲜港杨文祥周隆放王昉王岳青邓亮杨志供赵丹陈呈杨超代喆
申请(专利权)人:中国空气动力研究与发展中心计算空气动力研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1