一种面向高性能计算系统故障日志的故障预测方法技术方案

技术编号：27253191 阅读：15 留言：0更新日期：2021-02-04 12:31

本发明专利技术公开一种面向高性能计算系统故障日志的故障预测方法，包括以下步骤：获取高性能计算系统的故障日志数据，并根据所述故障日志数据分析获取故障时间序列，其中，所述故障时间序列适用于LSTM模型；采用K

全部详细技术资料下载

【技术实现步骤摘要】
一种面向高性能计算系统故障日志的故障预测方法

[0001]本专利技术涉及数据处理
，尤其涉及一种面向高性能计算系统故障日志的故障预测方法。

技术介绍

[0002]为了追求更高的模拟精度以及获得更多的计算细节，科学家们越来越依赖高性能计算机来处理空前庞大的数据集和复杂的模拟仿真。高性能计算机从最初的单芯片系统一直发展到拥有成千上万处理器的集群系统(Cluster)，实现了飞速发展；而直到目前为止，提高计算机性能的主要手段仍然是增加处理器数，这导致高性能计算机的规模迅速扩大。与此同时，对系统包括软件和硬件应对突发性错误事件的能力，即容错能力也有了更高的要求。特别是处理节点的增加，导致整个系统的平均无故障时间(Mean Time Between Failure，简称MTBF)大幅下降，例如，Intel公司为美国能源部研制的ASCI Red系统共有9000多个计算节点，虽然每个计算节点的MTBF都大于10年，但全系统的MTBF仅10小时(尚不含偶发性故障)。而像IBM的BlueGene/L这样处理器数目超过10万的大规模系统，MTBF会降到只有几十分钟甚至更短。
[0003]目前大规模的科学与工程计算问题，如空间飞行研究和核物理研究，往往需要连续运行几天甚至是几个月，而很多高性能计算机的MTBF已经变得比运行在该系统上的科学计算应用的执行时间更短。为了解决这一问题，迫切需要提高系统的容错能力。
[0004]为了提高系统的容错能力，已经在异常检测和故障预测方面投入了大量的研究工作。对于大规模的计算系统而言...

【技术保护点】

【技术特征摘要】
1.一种面向高性能计算系统故障日志的故障预测方法，其特征在于，包括以下步骤：步骤S1，获取高性能计算系统的故障日志数据，并根据所述故障日志数据分析获取故障时间序列，其中，所述故障时间序列适用于LSTM模型；步骤S2，采用K-means算法对上述故障日志数据中包含的故障类型进行聚类处理；步骤S3，基于上述故障时间序列搭建FD-LSTM模型；步骤S4，基于上述FD-LSTM模型分别对每一故障类型的聚类结果进行故障发生节点位置和故障提前时间的预测，并根据系统体系结构对预测结果进行统计分析。2.根据权利要求1所述的面向高性能计算系统故障日志的故障预测方法，其特征在于，所述步骤S1的具体实现方式包括以下步骤：步骤S101，获取高性能计算系统的故障日志数据，并根据该故障日志数据分析获取时间数据集；步骤S102，将故障发生的第一时间作为LSTM模型的时间序列索引，并根据该时间序列索引对上述时间数据集中的数据按先后顺序进行排序；步骤S103，按时间先后顺序计算上述时间数据集中相邻故障发生的间隔时间数，并保存为time-interval列；步骤S104，对上述间隔时间数进行分析处理，并去掉时间间隔过大的异常数据；步骤S105，统计分析所述计算系统的节点的故障分布状况；其中，如果故障主要集中分布在某个节点，说明故障分布极不均匀，需单独考虑该节点的故障预测，其余节点再进行故障预测；而如果故障分布较为均匀，则可以使用LSTM模型进行故障预测。3.根据权利要求2所述的面向高性能计算系统故障日志的故障预测方法，其特征在于，所述步骤S2的具体实现方式包括以下步骤：步骤S201，根据手肘法确定k值，其中，误差平方差和SSE的公式为：C
i
为第i个簇，p为C
i
中的样本点，m
i
为C
i
的质心，SSE是所有样本的聚类误差，代表了聚类效果的好坏；步骤S202，从上述时间数据集中随机选择k个数据点作为质心；步骤S203，计算上述时间数据集中每一数据点与每一质心的距离，并将每一数据点划分到与其距离最小的质心所属的集合中，从而获得k个集合；步骤S204，重新计算上述k个集合中每一集合的质心；步骤S205，判断所述步骤S204重新计算的质心与原先的质心之间的距离是否小于设定值，其中，如果重新计算出来的质心与原先的质心之间的距离大于或等于某一设定的阈值，则需要跳转回步骤S203，反之，说明重新计算出来的质心的位置变化不大，趋于稳定，或者说收敛，可以认为聚类处理已经达到期望的结果，K-means算法终止。4.根据权利要求2所述的面向高性能计算系统故障日志的故障预测方法，其特征在于，所述步骤S3中的FD-LSTM模型包括输入层、隐藏层、输出层、以及分别与所述输入层、隐藏层和输出层通过网络连接的网络训练模块；所述输入层用于对原始故障时间序列进行初步处理，包括划分时间数据集，通过所述输入层分割上述时间数据集得到新的故障时间序列X1、X2～Xt以满足网络输入要求；所述输出层用于提供预测结果P1、P2～Pt，且所述输出层内嵌有网络预测模块，所述网络预测模块采用迭代的方式对预测结果进行反标准化预测以获取
与测试集所对应的故障发生时间或节点位置；所述网络训练模块采用Adam优化算法计算模型输出与理论输出的损失，并采用BPTT算法进行训练。5.根据权利要求4所述的面向高性能计算系统故障日志的故障预测方法，其特征在于，所述步骤S3的具体实现方式包括以下步骤：步骤S301，计算遗忘门的输出值f
t
，其中，输出值f
t
采用公式f
t
＝σ(W
f
·
[h
t-1
，X
t
]+b
f
)完成计算，σ为Sigmoid激励函数，b
f
为偏置向量，X
t
为当前时刻的输入数据，h
t-1
为FD-LSTM模型前一时刻的输出值，即输出一个在0～1之间数值来决定FD-LSTM模型的单元状态C
t-1
中丢弃相应的信息，从而实现控制历史信息的输入，以及过滤无用信息；步骤S302，计算输入门的值i
t
和向量值δ
t
，其中，输入门的值i
t
采用公式i
...

【专利技术属性】
技术研发人员：刘锋，侯晓东，朱肖雄，
申请(专利权)人：广州科泽云天智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人