当前位置: 首页 > 专利查询>东北大学专利>正文

一种Hadoop平台计算节点负载预测方法技术

技术编号:21917207 阅读:25 留言:0更新日期:2019-08-21 13:26
本发明专利技术提出一种Hadoop平台计算节点负载预测方法,包括:基于滑动窗口二次检测算法的数据预处理方法;基于ARIMA算法的节点负载线性预测方法;基于RNN算法的节点负载非线性残差预测方法;将ARIMA算法与RNN算法预测出来的结果进行线性相加作为最终的预测结果;本发明专利技术通过对各个结算节点历史数据的分析,可以提取有价值的信息,进而合理预测下一时间段内的计算节点的负载,精确预测计算节点的负载可以为资源管理器合理地给AppMaster分配资源提供依据,进而缓解高负载节点的压力,提升低负载节点的计算资源利用率,提高Hadoop集群的可靠性和性能。本发明专利技术通过ARIMA和RNN模型组合,更加精确的对负载进行预测。

A Node Load Prediction Method for Hadoop Platform Computing

【技术实现步骤摘要】
一种Hadoop平台计算节点负载预测方法
本专利技术涉及分布式、大数据、云计算领域,具体涉及一种Hadoop平台计算节点负载预测方法。
技术介绍
Hadoop平台中,随着用户提交任务量的变化,各个计算节点的负载随之变化,计算节点在不同时间段下的负载有着显著的差别。通过对各个结算节点历史数据的分析,可以提取有价值的信息,进而合理预测下一时间段内的计算节点的负载,精确预测计算节点的负载可以为资源管理器合理地给AppMaster分配资源提供依据,进而缓解高负载节点的压力,提升低负载节点的计算资源利用率,提高Hadoop集群的可靠性和性能。负载信息可以看作时间序列,时间序列由线性特征和非线性特征两部分组成,线性特征可由传统的ARIMA模型提取,而非线性特性难以提取,故传统的预测模型难以精确拟合时间序列。
技术实现思路
基于以上技术不足,本专利技术提出了一种全新的计算节点负载预测方法,利用ARIMA模型拟合时间序列的线性特征,再利用RNN循环神经网络对非线性特征的残差部分进行二次拟合,将ARIMA与RNN神经网络所预测出来的结果线性相加作为最终的预测结果,实现了Hadoop平台下更加精确的计算节点负载预测。具体包括基于滑动窗口二次检测算法的数据预处理部分、基于ARIMA算法的计算节点负载线性预测部分、基于RNN算法计算节点负载非线性预测部分。基于滑动窗口二次检测算法的数据预处理部分对计算节点的负载数据进行预处理,减少异常波动值对负载预测模型建立的影响。基于滑动窗口的异常点检测算法利用定长的滑动窗口将计算节点负载所形成的时间序列分段为多个负载区间,通过提取各个负载区间的特征进行一次判断再通过负载区间的关联性来进行二次判断,进而对负载异常点进行处理。基于ARIMA算法的计算节点负载线性预测采用自回归积分滑动平均模型(ARIMA)预测计算节点负载序列的线性部分。基于RNN算法计算节点负载非线性预测部分通过RNN模型对ARIMA无法提取的残差进一步建模,提取计算节点的负载序列非线性部分。最后将线性部分和非线性部分结果相加作为最终的计算节点负载预测结果,以提高最终的计算节点负载预测的精确度。一种Hadoop平台计算节点负载预测方法,具体步骤如下:步骤1:基于滑动窗口二次检测算法的数据预处理方法,具体包括:步骤1.1:加载原始负载数据,选取定长滑动窗口,将负载时间序列分段为M个负载区间。步骤1.2:提取各个负载区间的特征,一次判断异常区间,具体包括:步骤1.2.1:计算负载均值,负载方差,并根据公式(1),公式(2)计算负载区间上界和下界。其中,j为第j个负载区间,为负载均值,σj为负载方差,为负载区间上界,为负载区间下界,Z为服从N(0,1)分布的随机变量,α为置信水平。步骤1.2.2:根据公式(3)计算滑动窗口内的置信区间的距离半径,作为负载区间特征。其中,rj为置信区间内距离半径,即负载区间特征。步骤1.2.3:判断负载区间的距离半径rj和阈值r的大小。步骤1.2.3.1:当rj>r时,则负载信息序列在第j个负载区间可能存在异常点。跳转到步骤1.3。步骤1.2.3.2:当rj≤r时,则负载信息序列在第j个负载区间正常。跳转到步骤1.3。步骤1.3:提取各个负载区间之间的关联度,二次判断异常区间,具体如下:步骤1.3.1:用公式(4)计算两个相邻滑负载区间的关联度。其中,Ωj为相邻负载区间的关联度。步骤1.3.2:比较相邻滑动负载区间的关联性Ωj和临界值Ω的大小。步骤1.3.2.1:当Ωj>Ω时,则判定第j个负载区间异常,删除异常负载区间的负载数据。步骤1.3.2.2:当Ωj≤Ω时,则判定第j个负载区间正常,将负载区间数据用于模型建立。步骤2:基于ARIMA(差分自回归平均移动模型)算法的节点负载线性预测方法,具体包括:步骤2.1:对计算节点负载序列的负载值进行白噪声检验,判断计算节点负载序列的负载值之间是否有关联。包括纯随机性检验和方差齐性检验。采用Q统计量进行纯随机特性检验,采用怀特法进行方差齐性检验。其中,白噪声定义为:在随机性检验和方差齐性检验中接收原假设时为白噪声;步骤2.1.1:进行纯随机性检验,原假设为计算节点负载序列的负载值之间相独立,并计算检验统计量Q统计量。步骤2.1.1.1:当检验统计量在置信区间内,接受原假设。序列为纯随机性序列,跳转步骤2.1.3.1。步骤2.1.1.2:检验统计量不在置信区间内,拒绝原假设。序列不是纯随机性序列,跳转步骤2.1.3.2。步骤2.1.2:进行方差齐性检验,原假设为序列为同方差,计算统计量的值。步骤2.1.2.1:当检验统计量在置信区间内,接受原假设。序列满足方差齐性,跳转步骤2.1.3.1。步骤2.1.2.2:检验统计量不在置信区间内,拒绝原假设。序列不满足方差齐性,跳转步骤2.1.3.2。步骤2.1.3:判断是否为白噪声。步骤2.1.3.1:若是白噪声,没有有效信息可提取,删除该计算节点负载区间数据。步骤2.1.3.2:若不是白噪声,将该计算节点负载区间数据用于模型建立。步骤2.2:采用ADF法进行计算节点负载序列的平稳性检验。步骤2.2.1:若负载序列平稳,用负载序列进行ARMA(自回归移动平均模型)建模。跳转到步骤2.3。步骤2.2.2:若负载序列不平稳,根据公式(5)、(6)通过差分法对负载序列处理,直至负载序列平稳。Δyt=yt-yt-1=(1-L)yt(5)Δdyt=(1-L)dyt(6)其中,yt为负载序列,Δyt为一阶差分,d为差分阶数,L为算子。步骤2.3:采用自相关函数(ACF)、偏自相关函数(PACF)来判别ARMA(p,q)模型的p阶数和q阶数,具体包括:步骤2.3.1:根据公式(7)计算自相关函数(ACF)描述的时间序列观测值与其过去的观测值之间的线性相关性。其中,ρk为时间序列观测值与其过去的观测值之间的线性相关性,xi为负载序列第i个观测值,为总体均值,i为计数变量,h为当前观测值与过去观测值间隔个数,n为时间序列个数。步骤2.3.2:根据公式(8)和公式(9)计算偏自相关函数(PACF)描述的在给定中间观测值的条件下时间序列观测值与其过去的观测值之间的线性相关性。其中,为给定中间观测值的条件下时间序列观测值与其过去的观测值之间的线性相关性,Xt为t时刻负载序列观测值,为t时刻负载序列均值。步骤2.3.3:p由显著不为0的偏自相关系数的数目决定,序列的偏自相关函数表现为拖尾性,偏自相关系数的值都在置信区间以内,初步判断ARMA模型的阶数p。步骤2.3.4:q由显著不为0的自相关系数的数目决定,序列的自相关函数表现为截尾性,自相关系数的值都在置信区间内,初步判断ARMA模型的阶数q。步骤2.3.5:利用计算节点负载数据和估计的负载方差,通过最小信息准则AIC进行定阶,根据公式(10)确定p,q的值。AIC(p,q)=nlnσ12+2(p+q+1)(10)其中,σ1估计的负载方差。步骤2.4:采用最小二乘法法对负载序列平稳化后的ARMA模型中的参数进行估计。步骤2.4.1:根据公式(11)、(12)计算误差平方和。其中,α是待估计参数,e是不相关的零均值误差。其中,Q(α)为误差平方和。步骤2.4.2:根据公式(13)计算本文档来自技高网...

【技术保护点】
1.一种Hadoop平台计算节点负载预测方法,其特征在于,具体步骤如下:步骤1:基于滑动窗口二次检测算法的数据预处理方法,具体包括:步骤1.1:加载原始负载数据,选取定长滑动窗口,将负载时间序列分段为M个负载区间;步骤1.2:提取各个负载区间的特征,一次判断异常区间,具体包括:步骤1.2.1:计算负载均值,负载方差,并根据公式(1),公式(2)计算负载区间上界和下界;

【技术特征摘要】
1.一种Hadoop平台计算节点负载预测方法,其特征在于,具体步骤如下:步骤1:基于滑动窗口二次检测算法的数据预处理方法,具体包括:步骤1.1:加载原始负载数据,选取定长滑动窗口,将负载时间序列分段为M个负载区间;步骤1.2:提取各个负载区间的特征,一次判断异常区间,具体包括:步骤1.2.1:计算负载均值,负载方差,并根据公式(1),公式(2)计算负载区间上界和下界;其中,j为第j个负载区间,为负载均值,σj为负载方差,为负载区间上界,为负载区间下界,Z为服从N(0,1)分布的随机变量,α为置信水平;步骤1.2.2:根据公式(3)计算滑动窗口内的置信区间的距离半径,作为负载区间特征;其中,rj为置信区间内距离半径,即负载区间特征;步骤1.2.3:判断负载区间的距离半径rj和阈值r的大小;步骤1.2.3.1:当rj>r时,则负载信息序列在第j个负载区间可能存在异常点,跳转到步骤1.3;步骤1.2.3.2:当rj≤r时,则负载信息序列在第j个负载区间正常,跳转到步骤1.3;步骤1.3:提取各个负载区间之间的关联度,二次判断异常区间,具体如下:步骤1.3.1:用公式(4)计算两个相邻滑负载区间的关联度:其中,Ωj为相邻负载区间的关联度;步骤1.3.2:比较相邻滑动负载区间的关联性Ωj和临界值Ω的大小;步骤1.3.2.1:当Ωj>Ω时,则判定第j个负载区间异常,删除异常负载区间的负载数据;步骤1.3.2.2:当Ωj≤Ω时,则判定第j个负载区间正常,将负载区间数据用于模型建立;步骤2:基于ARIMA算法的节点负载线性预测方法,得到ARIMA算法预测出来的结果;步骤3:基于RNN算法的节点负载非线性残差预测方法,得到RNN算法预测出来的结果;步骤4:将ARIMA算法与RNN算法预测出来的结果进行线性相加作为最终的预测结果。2.根据权利要求1所述Hadoop平台计算节点负载预测方法,其特征在于,所述步骤2,基于ARIMA算法的节点负载线性预测方法,具体包括:步骤2.1:对计算节点负载序列的负载值进行白噪声检验,判断计算节点负载序列的负载值之间是否有关联:包括纯随机性检验和方差齐性检验;采用Q统计量进行纯随机特性检验,采用怀特法进行方差齐性检验;其中,白噪声定义为:在随机性检验和方差齐性检验中接收原假设时为白噪声;步骤2.1.1:进行纯随机性检验,原假设为计算节点负载序列的负载值之间相独立,并计算检验统计量Q统计量;步骤2.1.1.1:当检验统计量在置信区间内,接受原假设,序列为纯随机性序列,跳转步骤2.1.3.1;步骤2.1.1.2:检验统计量不在置信区间内,拒绝原假设,序列不是纯随机性序列,跳转步骤2.1.3.2;步骤2.1.2:进行方差齐性检验,原假设为序列为同方差,计算统计量的值;步骤2.1.2.1:当检验统计量在置信区间内,接受原假设,序列满足方差齐性,跳转步骤2.1.3.1;步骤2.1.2.2:检验统计量不在置信区间内,拒绝原假设,序列不满足方差齐性,跳转步骤2.1.3.2:步骤2.1.3:判断是否为白噪声;步骤2.1.3.1:若是白噪声,没有有效信息可提取,删除该计算节点负载区间数据;步骤2.1.3.2:若不是白噪声,将该计算节点负载区间数据用于模型建立;步骤2.2:采用ADF法进行计算节点负载序列的...

【专利技术属性】
技术研发人员:张斌李薇郭军刘晨侯帅周杜凯柳波刘文凤王嘉怡王馨悦张娅杰张瀚铎
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1