一种面向大规模集群系统的节点故障预测方法技术方案

技术编号:23853686 阅读:40 留言:0更新日期:2020-04-18 09:57
本发明专利技术公开了一种面向大规模集群系统的节点故障预测方法,收集各节点的资源占用量数据并生成数据集,使用长短期记忆网络构建第一数据预测模型,使用随机森林构建第二故障预测模型,建立第一观察窗口,判断第一观察窗口的大小,如果不满足设定值,返回重新构建;如果满足设定值,使用第一故障预测模型预测提前时间窗口内数据,将第一观察窗口与提前时间窗口内数据结合构成第二观察窗口,判断第二观察窗口的大小,如果不满足设定值,返回重新构建第二观察窗口;如果满足,使用第二故障预测模型预测预测窗口内的故障。本发明专利技术在确保有充足的提前时间对节点故障进行处理的前提下,使预测模型的准确率最高。

A node fault prediction method for large scale cluster system

【技术实现步骤摘要】
一种面向大规模集群系统的节点故障预测方法
本专利技术属于计算机系统可靠性与可用性
,具体涉及一种面向大规模集群系统的节点故障预测方法。
技术介绍
集群系统是用于高性能计算、云计算和数据中心的常见平台。随着这些平台的规模和复杂性的不断增长,系统的可靠性成为一个主要问题,因为系统的平均故障间隔时间(MTBF)随着系统组件数量的增加而减少。最近的研究结果表明,现有数据中心和云计算系统的可靠性受到10-100小时平均故障间隔时间的限制。数据中心通常具有很高的故障率,因为它具有许多服务器和组件。此外,长时间运行的应用程序和密集的工作负载在这些设施中很常见。系统的性能取决于机器的可用性,如果不能很好地处理故障,机器的可用性很容易受到影响。为了满足云计算日益增长的需求,诸如谷歌、Facebook和Amazon等互联网公司通常在其数据中心部署大量服务器。这些服务器承受着繁重的工作负载,并处理各种各样的请求。对于这样的高可用性计算环境,当集群中的一台服务器故障时,它的工作负载通常被转移到同一集群中的另一台机器上,这增加了其他服务器故障的可能性。服务器故障会导致数据丢失,以及由于机器突然不可用而导致的资源阻塞。在最坏的情况下,这些故障可能会使数据中心瘫痪,导致意外停机,恢复数据需要非常高的成本。据PonemonInstitute在2016年发布的数据中心停机报告可知,恢复数据平均需要9000美元/分钟,最高为17000美元/分钟。在微软云系统的所有服务器节点中,每天只有不到0.1%的节点遇到故障,但它对目标为99.999%或更高可用性的服务具有重大影响。因此,节点故障是导致服务停机的主要原因之一。在线故障预测是一种通过分析机器历史故障数据和系统当前状态来预测故障,从而避免或减轻故障对集群带来不利影响的技术,是提高存储系统的可靠性与可用性的重要手段。虽然预测机器的下一次故障似乎是提高数据中心可靠性的一个可行且有前景的解决方案,但它带来了两个主要挑战:第一个挑战是预测时需要很高的准确性,特别是为了减少误报。第二个挑战是如何选择合适的提前时间。若提前时间太长,则故障前的显著特征无法充分利用,导致模型准确率较低;若提前时间太短,虽预测准确率会提升,但不足以让管理员有充足的时间对节点进行相关操作来避免故障。
技术实现思路
本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种面向大规模集群系统的节点故障预测方法,在确保有充足的提前时间对节点故障进行处理的前提下,使预测模型的准确率最高。本专利技术采用以下技术方案:一种面向大规模集群系统的节点故障预测方法,收集各节点的资源占用量数据并生成数据集,使用长短期记忆网络构建第一数据预测模型,使用随机森林构建第二故障预测模型,建立第一观察窗口,判断第一观察窗口的大小,如果不满足设定值,返回重新构建;如果满足设定值,使用第一数据预测模型预测提前时间窗口内数据,将第一观察窗口与提前时间窗口内数据结合构成第二观察窗口,判断第二观察窗口的大小,如果不满足设定值,返回重新构建第二观察窗口;如果满足,使用第二故障预测模型预测预测窗口内的故障。具体的,各节点收集实际运行参数,取n个单位时间窗口大小构成观察窗口并生成数据集,利用观察时间窗口内的各项数据预测出提前时间窗口内的节点各项数据。进一步的,节点收集实际运行参数的周期为每5分钟。进一步的,τ时间段内的各项预测数据Yr,τ为:Yr,τ=f(P(t))其中,f表示要求解的模型,P(t)为所有数据组成的向量,t∈(1,τ-1),r∈resources。具体的,长短期记忆网络的输入包括训练样本数量、时间步长和特征值,特征值用所有数据组成的向量P(t)表示。进一步的,通过计算皮尔逊相关系数得出各个特征值与故障之间的相关系数,从节点收集到的实际运行参数中选取9个相关性系数大于0.1的特征值作为最终特征值。更进一步的,特征值数据为:meanCPUusagerate,canonicalmemoryusage,totalpagecachememoryusage,maximummemoryusage,meandiskI/Otime,meanlocaldiskspaceused,maximumCPUusage,maximumdiskIOtime,memoryaccessesperinstruction。具体的,随机森林的输入为第一观察窗口内特征值组成的向量P(t)以及提前时间窗口内特征值组成的向量Y(t1),经过预测行为得出预测窗口内是否发生故障,预测窗口内是否发生故障y表示为:y=f(P(t),Y(t1))其中,f表示要求解的模型,1表示故障,0表示非故障。与现有技术相比,本专利技术至少具有以下有益效果:本专利技术一种面向大规模集群系统的节点故障预测方法,能准确地预测节点未来一段时间内的资源占用量变化情况;结合之前预测出的节点资源占用量数据以及真实的资源占用量数据,使用随机森林进行最终的故障预测,对节点的故障预测只需预测下一个时间段的机器状态,因此是一个二分类问题,在分类算法中,随机森林具有较高的准确率。随机森林不容易陷入过拟合,能够处理很高维度的数据,并且不用做特征选择,对数据集的适应能力强。进一步的,通过第一阶段的数据预测,提前时间窗口内节点的资源占用量数据被预测出来,弥补了传统故障预测方法中提前时间窗口内没有数据的缺陷,进行第二阶段的节点故障预测时,可以充分利用提前时间窗口内的数据,从而提高预测准确率。进一步的,节点中有关资源占用量的指标有很多,不同的特征值对于故障预测算法有不同的影响,通过计算皮尔逊相关系数,我们得出了各个特征值与故障之间的相关性系数,从而确定预测时所需的特征值,避免了无用特征值对故障预测产生的影响。综上所述,本专利技术利用LSTM对处理与时间序列相关度高的数据以及在处理时间序列上距离较远的数据的优势,能够有效地预测出提前时间窗口内的数据。然后,结合真实的数据共同构成观察窗口内的数据,使用随机森林方法进行最终的故障预测。不仅留有提前时间用来应对故障,而且充分利用了提前时间窗口内的数据,使模型的准确率得到保证。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1为时间窗口定义图;图2为新时间窗口定义图;图3为LSTM内部结构图;图4为本专利技术预测流程图。具体实施方式请参阅图4,本专利技术一种面向大规模集群系统的节点故障预测方法,首先收集各节点资源占用量数据,进行数据处理生成数据集,使用长短期记忆网络(LSTM)构建第一数据预测模型,使用随机森林构建第二故障预测模型,建立第一观察窗口数据,判断第一观察窗口的大小是否等于3小时,如果不满足,返回重新构建;如果满足,使用第一数据预测模型预测提前时间窗口内数据,将第一观察窗口与提前时间窗口内数据结合构成第二观察窗口,判断第二观察窗口的大小是否等于4小时,如果不满足,返回重新构建第二观察本文档来自技高网
...

【技术保护点】
1.一种面向大规模集群系统的节点故障预测方法,其特征在于,收集各节点的资源占用量数据并生成数据集,使用长短期记忆网络构建第一数据预测模型,使用随机森林构建第二故障预测模型,建立第一观察窗口,判断第一观察窗口的大小,如果不满足设定值,返回重新构建;如果满足设定值,使用第一数据预测模型预测提前时间窗口内数据,将第一观察窗口与提前时间窗口内数据结合构成第二观察窗口,判断第二观察窗口的大小,如果不满足设定值,返回重新构建第二观察窗口;如果满足,使用第二故障预测模型预测预测窗口内的故障。/n

【技术特征摘要】
1.一种面向大规模集群系统的节点故障预测方法,其特征在于,收集各节点的资源占用量数据并生成数据集,使用长短期记忆网络构建第一数据预测模型,使用随机森林构建第二故障预测模型,建立第一观察窗口,判断第一观察窗口的大小,如果不满足设定值,返回重新构建;如果满足设定值,使用第一数据预测模型预测提前时间窗口内数据,将第一观察窗口与提前时间窗口内数据结合构成第二观察窗口,判断第二观察窗口的大小,如果不满足设定值,返回重新构建第二观察窗口;如果满足,使用第二故障预测模型预测预测窗口内的故障。


2.根据权利要求1所述的面向大规模集群系统的节点故障预测方法,其特征在于,各节点收集实际运行参数,取n个单位时间窗口大小构成观察窗口并生成数据集,利用观察时间窗口内的节点各项数据预测出提前时间窗口内的节点各项数据。


3.根据权利要求2所述的面向大规模集群系统的节点故障预测方法,其特征在于,节点收集实际运行参数的周期为每5分钟。


4.根据权利要求2所述的面向大规模集群系统的节点故障预测方法,其特征在于,τ时间段内的各项预测数据Yr,τ为:
Yr,τ=f(P(t))
其中,f表示要求解的模型,P(t)为所有数据组成的向量,t∈(1,τ-1),r∈resources。


5.根据权利要求1所述的面向大规模集群系统的节点故...

【专利技术属性】
技术研发人员:伍卫国毛海聂世强张驰董小社张兴军
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1