一种基于故障日志的高性能计算系统故障预测方法技术方案

技术编号:31027200 阅读:38 留言:0更新日期:2021-11-30 03:30
本发明专利技术公开了一种基于故障日志的高性能计算系统故障预测方法,目的是通过对故障的预测,达到高性能计算系统的主动容错,提高应用程序实际计算性能。技术方案是利用并分析处理高性能计算系统工作故障日志,对故障日志进行清洗处理,得到故障时间序列数据集C,使用K

【技术实现步骤摘要】
一种基于故障日志的高性能计算系统故障预测方法


[0001]本专利技术涉及基于人工智能的故障预测方法,尤指面向高性能计算系统故障日志的故障预测方法。

技术介绍

[0002]为了满足科学研究和工程应用的需求,超级计算机的性能不断提升,带来系统规模不断增大。10P~100P量级(P级是每秒运算速度达到2600万亿次)高性能计算机的规模目前已经达到数十万处理器规模。伴随着不断增加的系统规模和复杂度,高性能计算机面临着前所未有的可靠性挑战。尽管系统部件的设计中采取了多种多样的有效措施提高部件可靠性,但系统规模和复杂度的增长仍然远远超过系统部件可靠性的改善。最近的研究表明,未来E级(每秒可进行百亿亿次数学运算)高性能计算机的平均无故障时间只有半个小时左右。根据国际E级计算挑战的分析,未来E级计算系统下,当前的容错技术例如全局检查点将变得不实用。需要更好的理解故障根本原因,进一步优化现有的系统检查点技术;改善RAS数据的收集和分析,进一步深入对故障的理解,开发条件状态感知的、系统级故障预测技术来进一步优化检查点和在线迁移的时间。因此,构建下一代E级高性能计算本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于故障日志的高性能计算系统故障预测方法,其特征在于包括以下步骤:第一步、对高性能计算系统原始故障日志信息进行分析处理,得到故障时间序列数据集C,方法是:1.1从高性能计算系统取得原始故障日志数据,对故障日志数据分析,得到含有N个故障日志数据第一数据集D,N为正整数,D中包含10个字段,10个字段分别为:编号ID、日志系统记录的故障发生时间ReceivedAt、故障发生的第一时间DeviceReportedTime、故障设备名称Facility、故障等级Priority、故障结点号FromHost、故障消息Message、故障编号InfoUnitID、系统日志编号SysLogTag、校验码checksum;将DeviceReportedTime作为故障发生的时间;1.2将DeviceReportedTime字段修改为“date”,date作为BiLSTM中的时间序列索引,并按照date字段时间先后顺序对第一数据集D进行排序,删去ReceivedAt和ID字段,得到含有N个故障日志数据的第二数据集D

,D

含有8个字段;1.3对第二数据集D

中的N个故障日志数据,依次计算相邻两个故障发生的间隔时间数,并将相邻故障发生的时间间隔数值保存为新的字段time

interval的值,得到9个字段的第三数据集D”,删除第N个数据,第三数据集D”数据个数N

=N

1;1.4对第三数据集D”中的time

interval进行分析,对time

interval值大于A的数据分析记录故障原因的Message字段,如果Message字段表明是不可预测的故障,去则除异常数据,否则,保留该数据,得到第四数据集D
”’
;1.5分析第四数据集D
”’
中记录故障发生结点的FromHost字段,剔除D
”’
中登录结点和管理结点的故障日志数据,得到故障时间序列数据集C;第二步、对C进行聚类,得到用于预测的与K个故障类型对应的K个聚类C1、C2…
C
k

C
K
,1≤k≤K;第三步、搭建故障预测模型;故障预测模型采用CNN

BiLSTM

Attention模型,依次包括InputLayer输入层、Conve1D一维卷积层、Dropout层、BiLSTM层、Attention层以及Dense层,按此顺序前一层的输出为后一层的输入;InputLayer输入层从外部接收要处理的被测数据集I,针对I中的异常数据,采用临近均值进行替换,针对I中不同变量取值大小相差较大的进行归一化,得到归一化后的数据集I

,将I

划分为训练集和测试集;Conve1D一维卷积层是卷积神经网络,从InputLayer输入层接收训练集或测试集,抽取训练集或测试集的数据特征,挖掘多维数据之间的相互关联并从中剔除噪声和不稳定成分;当输入数据X时,卷积层的特征图F表示为:分;当输入数据X时,卷积层的特征图F表示为:式中,为卷积操作;W为卷积核的权重向量;b表示偏移量;f(
·
)为Relu激活函数;Dropout层实现在深度学习网络的训练过程中,按照概率P将神经网络单元暂时从网络中丢弃,得到相对稳定的信息;BiLSTM层由前向LSTM与后向LSTM组合而成,根据从Dropout层获得的相对稳定的信息进行长序列预测,得到上下文的信息表示h;Attention层对从BiLSTM层接收的h进行权重计算,对h进行一次全连接,随后采用softmax函数计算h中各个字段对预测值的预测准确度的贡献的权重,使得模型能依靠更有
利于准确预测的字段做出预测,减少无关字段对准确预测的影响;Dense层对从Attention层获得的h中各个字段对预测值的预测准确度的贡献的权重进行非线性变化,提取这些权重之间的关联,映射到输出空间上,得到输出Predictivevalue,包括预测的故障发生结点位置的结点编号cn号和故障发生的提前时间;第四步,利用第二步得到的C1、C2…
C
k

C
K
分别作为第三步搭建的预测故障模型的输入数据,实现对故障预测模型的训练,得到K个时间预测模型和K个故障结点预测模型,方法如下:4.1初始化k=1;将C
k
划分为训练集、测试集,分别为:训练集为C
k

、测试集为T
k
;4.2初始化m=1,设置预测维度为time

interval;4.3 InputLayer层针对C
k

中的异常数据,采用临近均值进行替换;针对不同变量取值大小相差较大,进行归一化,得到归一化后的C
k

;4.4 Conve1D层对从InputLayer层接收的归一化后的C
k

进行卷积操作,将卷积操作后的归一化后的C
k

发送给Dropout层;4.5 Dropout层将卷积操作后的归一化后的C
k

【专利技术属性】
技术研发人员:刘杰方娇丽左克李胜国迟利华胡庆丰龚春叶甘新标杨博陈旭光肖调杰徐涵
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1