【技术实现步骤摘要】
一种Hadoop平台计算节点负载预测方法
本专利技术涉及分布式、大数据、云计算领域,具体涉及一种Hadoop平台计算节点负载预测方法。
技术介绍
Hadoop平台中,随着用户提交任务量的变化,各个计算节点的负载随之变化,计算节点在不同时间段下的负载有着显著的差别。通过对各个结算节点历史数据的分析,可以提取有价值的信息,进而合理预测下一时间段内的计算节点的负载,精确预测计算节点的负载可以为资源管理器合理地给AppMaster分配资源提供依据,进而缓解高负载节点的压力,提升低负载节点的计算资源利用率,提高Hadoop集群的可靠性和性能。负载信息可以看作时间序列,时间序列由线性特征和非线性特征两部分组成,线性特征可由传统的ARIMA模型提取,而非线性特性难以提取,故传统的预测模型难以精确拟合时间序列。
技术实现思路
基于以上技术不足,本专利技术提出了一种全新的计算节点负载预测方法,利用ARIMA模型拟合时间序列的线性特征,再利用RNN循环神经网络对非线性特征的残差部分进行二次拟合,将ARIMA与RNN神经网络所预测出来的结果线性相加作为最终的预测结果,实现了Hadoop平台下更加精确的计算节点负载预测。具体包括基于滑动窗口二次检测算法的数据预处理部分、基于ARIMA算法的计算节点负载线性预测部分、基于RNN算法计算节点负载非线性预测部分。基于滑动窗口二次检测算法的数据预处理部分对计算节点的负载数据进行预处理,减少异常波动值对负载预测模型建立的影响。基于滑动窗口的异常点检测算法利用定长的滑动窗口将计算节点负载所形成的时间序列分段为多个负载区间,通过提取各个负载区间的特 ...
【技术保护点】
1.一种Hadoop平台计算节点负载预测方法,其特征在于,具体步骤如下:步骤1:基于滑动窗口二次检测算法的数据预处理方法,具体包括:步骤1.1:加载原始负载数据,选取定长滑动窗口,将负载时间序列分段为M个负载区间;步骤1.2:提取各个负载区间的特征,一次判断异常区间,具体包括:步骤1.2.1:计算负载均值,负载方差,并根据公式(1),公式(2)计算负载区间上界和下界;
【技术特征摘要】
1.一种Hadoop平台计算节点负载预测方法,其特征在于,具体步骤如下:步骤1:基于滑动窗口二次检测算法的数据预处理方法,具体包括:步骤1.1:加载原始负载数据,选取定长滑动窗口,将负载时间序列分段为M个负载区间;步骤1.2:提取各个负载区间的特征,一次判断异常区间,具体包括:步骤1.2.1:计算负载均值,负载方差,并根据公式(1),公式(2)计算负载区间上界和下界;其中,j为第j个负载区间,为负载均值,σj为负载方差,为负载区间上界,为负载区间下界,Z为服从N(0,1)分布的随机变量,α为置信水平;步骤1.2.2:根据公式(3)计算滑动窗口内的置信区间的距离半径,作为负载区间特征;其中,rj为置信区间内距离半径,即负载区间特征;步骤1.2.3:判断负载区间的距离半径rj和阈值r的大小;步骤1.2.3.1:当rj>r时,则负载信息序列在第j个负载区间可能存在异常点,跳转到步骤1.3;步骤1.2.3.2:当rj≤r时,则负载信息序列在第j个负载区间正常,跳转到步骤1.3;步骤1.3:提取各个负载区间之间的关联度,二次判断异常区间,具体如下:步骤1.3.1:用公式(4)计算两个相邻滑负载区间的关联度:其中,Ωj为相邻负载区间的关联度;步骤1.3.2:比较相邻滑动负载区间的关联性Ωj和临界值Ω的大小;步骤1.3.2.1:当Ωj>Ω时,则判定第j个负载区间异常,删除异常负载区间的负载数据;步骤1.3.2.2:当Ωj≤Ω时,则判定第j个负载区间正常,将负载区间数据用于模型建立;步骤2:基于ARIMA算法的节点负载线性预测方法,得到ARIMA算法预测出来的结果;步骤3:基于RNN算法的节点负载非线性残差预测方法,得到RNN算法预测出来的结果;步骤4:将ARIMA算法与RNN算法预测出来的结果进行线性相加作为最终的预测结果。2.根据权利要求1所述Hadoop平台计算节点负载预测方法,其特征在于,所述步骤2,基于ARIMA算法的节点负载线性预测方法,具体包括:步骤2.1:对计算节点负载序列的负载值进行白噪声检验,判断计算节点负载序列的负载值之间是否有关联:包括纯随机性检验和方差齐性检验;采用Q统计量进行纯随机特性检验,采用怀特法进行方差齐性检验;其中,白噪声定义为:在随机性检验和方差齐性检验中接收原假设时为白噪声;步骤2.1.1:进行纯随机性检验,原假设为计算节点负载序列的负载值之间相独立,并计算检验统计量Q统计量;步骤2.1.1.1:当检验统计量在置信区间内,接受原假设,序列为纯随机性序列,跳转步骤2.1.3.1;步骤2.1.1.2:检验统计量不在置信区间内,拒绝原假设,序列不是纯随机性序列,跳转步骤2.1.3.2;步骤2.1.2:进行方差齐性检验,原假设为序列为同方差,计算统计量的值;步骤2.1.2.1:当检验统计量在置信区间内,接受原假设,序列满足方差齐性,跳转步骤2.1.3.1;步骤2.1.2.2:检验统计量不在置信区间内,拒绝原假设,序列不满足方差齐性,跳转步骤2.1.3.2:步骤2.1.3:判断是否为白噪声;步骤2.1.3.1:若是白噪声,没有有效信息可提取,删除该计算节点负载区间数据;步骤2.1.3.2:若不是白噪声,将该计算节点负载区间数据用于模型建立;步骤2.2:采用ADF法进行计算节点负载序列的...
【专利技术属性】
技术研发人员:张斌,李薇,郭军,刘晨,侯帅,周杜凯,柳波,刘文凤,王嘉怡,王馨悦,张娅杰,张瀚铎,
申请(专利权)人:东北大学,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。