基于多变量分组的服务器性能预测方法技术

技术编号:18367697 阅读:35 留言:0更新日期:2018-07-05 09:19
本公开涉及基于多变量分组的服务器性能预测方法。本发明专利技术提出了一种用于多步预测企业服务器性能的方法。在高度动态的资源共享环境中,系统性能指标的准确预测是资源高效分配的关键。针对CPU负载等性能指标的预测,研究人员已提出一系列预测模型,但大部分集中在单变量和短期预测领域。该方法收集了服务器的历史性能数据,并且将其转化成多变量时间序列。在进行预测时,通过K近邻算法对历史的多变量时间序列进行搜索,找到与当前的服务器性能及资源消耗的状态最为接近的历史序列。将K个最相近的历史时间序列的后续时间序列信息合成未来服务器性能状况的预测值。

Server performance prediction method based on multivariable grouping

The present disclosure relates to a server performance prediction method based on multivariable grouping. The invention provides a method for multi-step prediction of the performance of enterprise servers. In a highly dynamic resource sharing environment, accurate prediction of system performance is the key to efficient allocation of resources. For the prediction of CPU load and other performance indicators, researchers have put forward a series of prediction models, but most of them focus on single variable and short-term forecasting. The method collects the historical performance data of the server and transforms it into a multivariate time series. In the prediction, the K nearest neighbor algorithm is used to search the history multivariable time series, and find the most close to the current server performance and the state of resource consumption. The subsequent time series information of the closest K historical time series is used to synthesize the predicted value of future server performance.

【技术实现步骤摘要】
基于多变量分组的服务器性能预测方法
本专利技术涉及信息
中的多变量服务器负载预测方法。
技术介绍
目前,已有许多研究通过时间序列预测算法对服务器性能进行预测。这些研究有的使用了经典的线性回归、指数平滑或者ARIMA模型进行时间序列预测,也有的使用了更为复杂的支持向量机(SVM)、神经网络以及模糊逻辑算法。KNN算法也在时间序列预测中得到了使用。但是现有的服务器性能预测都是针对的单一指标,而忽略了实际中对多个指标预测的需求以及指标间的相关性;另一方面,这些预测针对的是下一步的数据,无法对未来多个步长的数据进行准确的预测。
技术实现思路
本专利技术的技术解决问题:1.基于多维K近邻方法获取多步性能预测通过多维K近邻方法能够预测多步性能信息,扩大了预测的范围。2.通过维度分组提高预测速度随着时间序列维度的增加,进行时间序列预测的速度会急剧下降。如果预测算法运行时间过长,则失去了实时预测的能力。通过变量分组提高了预测速度。3.通过维度分组,保留了变量间的相关性当多元时间序列的维度很多时,直接进行KNN预测反而由于变量之间的干扰而产生很大误差。通过维度分组,保留了变量间的相关性,又提高了速度。本专利技术的技术解决方案:为了综合利用各个指标信息以提高预测的精度,本专利技术提出一种基于多变量分组的K最近邻算法的服务器性能预测方法。通过分析各变量间的相关性对变量进行分组,在此基础上利用K最近邻法搜索相似历史序列,进行多步预测。本专利技术与现有技术相比的优点在于:使用了多维K最近邻方法实现对服务器的多步性能预测。同时,将变量按相关性、依赖性进行分组,使得每个组内的变量联系密切,不同组的变量之间的相关度较低或相对独立。对变量进行分组在减少干扰提高预测精度的同时,还可以极大地降低多元时间序列的维度,从而加快KNN的搜索速度。附图说明图1KNN算法示意图。图2预测算法流程图。图3是按照本专利技术的各实施例的企业计算机系统的框图。具体实施方式本专利技术分为以下步骤:S1确定相关性矩阵给定长度为T、维度为d的多变量时间序列,我们利用相关系数来衡量两个变量之间的关联程度。本专利选择斯皮尔曼秩相关系数(Spearman’srankcorrelationcoefficient),它是一个度量两变量间联系强弱的非参数性质的秩统计参数。对容量为n的样本,原始数据Xi,Yi被转换为等级数据xi,yi,相关系数ρXY为:其中xi,yi代表原始数据,代表数据均值。由于两个变量之间的相关性不一定是同步的,可能存在一定的时延,因此需要考虑时延对相关系数的影响。对于每对变量,算法会将时延长度从0至MaxLag计算其相关系数,并从中选取最大值作为两者最终的相关系数,即:计算所有d个时间序列两两变量之间的相关系数,构成一个d×d的相关性矩阵,来刻画这d个变量之间的相互联系。S2多变量分组基于上述算法构建的相关性矩阵,我们使用聚类算法将这d个变量聚集成不同的组。本专利使用了近邻传播聚类算法(AffinityPropagation,以下简称AP)。AP算法是一种基于数据点间“消息传递”的聚类算法。与k-means算法和k-medoids算法不同的是,AP算法不需要事先指定聚类的数目或者是其他描述聚类个数的参数,而是将所有数据点都作为潜在的聚类中心。由于我们对于这些时间序列变量的分组结果也未知,因此AP算法对本专利解决的问题更具适应性。AP算法中传递的消息有两种类型:吸引度(responsibility)和归属度(availability)。前者用r(i,k)表示,用来描述点k作为数据点i的聚类中心的适合程度;后者用a(i,k)表示,用来描述点i选择点k作为其聚类中心的适合程度。两者公式如下:其中s(i,k)代表i和k的相似程度,可从相似度矩阵中得到。AP算法接受相似度矩阵作为输入来启动算法,通过迭代不断更新每个点的吸引度和归属度值直至收敛,产生若干个聚类中心,再将其余的数据点分配到合适的聚类中。AP算法的伪代码如下:在分组基础上,通过寻找历史相似序列对未来进行预测。S3寻找历史相似序列为了更好地说明,首先讨论单变量情况下基于时间序列预测未来多步的方法。给定一个有限等间隔的单一时间序列xt,其中t=(1,2,…,T),我们需要在时刻T向后进行多步预测,预测值表示为其中h=(1,2,…,H),H为预测步数。首先,为了刻画时间序列在近期内状态变化的特征,我们定义一组自回归的特征模式向量。这些向量是由一系列连续的观测值组成且长度相等。在时刻t,特征模式向量可表示为其中m是特征模式长度,也称作嵌入维数,为固定值。需要注意的是对于每个历史时刻我们都会创建一个相应的特征模式向量,即(t,t-1,t-2,…,t-m+1),因此相邻向量中有m-1个数据项是相互叠加的。这些向量组成的集合称作m维历史序列集(m-histories),这里的m维指的是时间序列的时序空间。下一步,我们分别计算所有的m维历史序列集合与最后观察到的向量之间的距离,这里我们使用欧式距离度量:最后,我们将计算得到的各个距离值排序,从中找出k个与目标特征向量最相近的历史向量,并将它们的后续数据项分别提取出,组合产生预测值最后预测值可以表示为k近邻的加权和。常见的组合方式有简单平均,或是分配基于距离的权重(distance-basedweights)求和。为了更精确地描述k近邻与预测值的关系,我们采用梯度下降算法,通过训练得到各近邻的权重:其中,neighj,h为第j个近邻的后续值,wj为训练得到的相应权重。对于多变量的情况,将上述单变量k-NN算法中的特征模式向量和m-histories扩展至多维空间,并沿用其中的变量表示方式。对于d维的多元时间序列(MTS),在T时刻,为了预测该MTS的未来值,我们定义目标特征矩阵其中表示在时刻T时,维度l的目标特征向量。类似地,距离函数被定义为各个维度的目标特征向量与m-histories中对应维度向量的距离之和:通过对m-histories的搜索,我们找出与MTS当前状态下的特征矩阵最相似的k个近邻,每个近邻均是一个m×d阶矩阵,由d个长度为m的特征模式向量组成。对于每个维度而言,这k个近邻在历史序列中的后续数据点共同组成参考矩阵neigh:从而,MTS在时刻T对时刻T+h的各维度预测值便是将参考矩阵中相应维度的数据点加权组合而成:S4权值更新考虑到多元时间序列具有一定的潜在趋势。随着时间的推移,预测值和近邻值之间的关系也会逐渐变化,权值也会越来越不合适,因此便需要随着数据变化及时调整权重设Traint=[xt-1,xt-2,...,xt-n]表示t时刻的大小为n的训练样本集(不包含xt),xt表示t时刻的真实值,yt表示t时刻的预测值。我们根据之前训练好的权值,由Traint预测出yt,则在预测yt+1前,会更新历史序列,加入xt,训练样本集也会随着向后推移,类似一个移动窗口,从而Traint+1=[xt,xt-1,...,xt-n+1],在上一次的基础上再次训练权值,之后再预测yt+1,以此类推。这样,权值可在最初训练集的基础上,随着后来预测的数值不断更新调整;而训练样本集的推移也逐渐淘汰距离较远的历史序列,使预测模型能适应时间序列最新的变化规律。由梯度下降法的特点,每次更新权本文档来自技高网...
基于多变量分组的服务器性能预测方法

【技术保护点】
1.一种为企业计算机系统预报网络资源需求的计算机实现的方法,其中所述企业计算机系统包括为所述企业计算机系统的用户托管计算机资源的多个网络服务器,所述方法包括:通过计算机数据库系统,接收所述多个网络服务器的多元时间序列(MTS)性能数据,其中所述MTS性能数据包括针对一系列先前采样时刻的、用于所述多个网络服务器的多个d性能变量的数据;通过与所述计算机数据库系统通信的已编程的计算机系统,将所述MTS性能数据中的变量分组成为两个或更多个变量组,使得所述MTS性能数据中的所述性能变量中的每一个属于一个变量组;通过已编程的计算机系统,通过计算在一个或多个未来时间范围步长处的对所述变量的预测,来计算所述企业计算机系统的所述网络服务器的未来工作负载的预测,其中计算所述预测包括:使用应用到所述两个或更多个变量组的k最近邻搜索算法,寻找相对于所述MTS性能数据的基准状态的k个最近邻;以及计算所述k个最近邻的加权平均;以及通过已编程的计算机系统,基于所计算的预测,确定网络服务器的推荐数量,这是所述企业需要处于工作模式中、以处理在所述一个或多个未来时间范围步长中的每一个未来时间范围步长处的所述企业计算机系统的所述用户的资源请求的网络服务器的推荐数量。...

【技术特征摘要】
1.一种为企业计算机系统预报网络资源需求的计算机实现的方法,其中所述企业计算机系统包括为所述企业计算机系统的用户托管计算机资源的多个网络服务器,所述方法包括:通过计算机数据库系统,接收所述多个网络服务器的多元时间序列(MTS)性能数据,其中所述MTS性能数据包括针对一系列先前采样时刻的、用于所述多个网络服务器的多个d性能变量的数据;通过与所述计算机数据库系统通信的已编程的计算机系统,将所述MTS性能数据中的变量分组成为两个或更多个变量组,使得所述MTS性能数据中的所述性能变量中的每一个属于一个变量组;通过已编程的计算机系统,通过计算在一个或多个未来时间范围步长处的对所述变量的预测,来计算所述企业计算机系统的所述网络服务器的未来工作负载的预测,其中计算所述预测包括:使用应用到所述两个或更多个变量组的k最近邻搜索算法,寻找相对于所述MTS性能数据的基准状态的k个最近邻;以及计算所述k个最近邻的加权平均;以及通过已编程的计算机系统,基于所计算的预测,确定网络服务器的推荐数量,这是所述企业需要处于工作模式中、以处理在所述一个或多个未来时间范围步长中的每一个未来时间范围步长处的所述企业计算机系统的所述用户的资源请求的网络服务器的推荐数量。2.如权利要求1所述的方法,其中所述多个网络服务器的所述性能变量包括指示至少以下内容的变量:CPU负载;基础计算机存储器使用量;以及每单位时间段次级计算机存储装置的输入/输出(IO)操作。3.如权利要求1所述的方法,其中将所述变量分组的步骤包括:通过所述已编程的计算机系统,计算指示每一对性能变量之间的相关性的相关矩阵;以及通过所述已编程的计算机系统,使用聚类算法基于所述相关矩阵确定所述变量组。4.如权利要求3所述的方法,其中所述相关矩阵包括斯皮尔曼相关矩阵。5.如权利要求4所述的方法,其中所述聚类算法包括近邻传播聚类算法。6.如权利要求1所述的方法,其中寻找相对于所述MTS性能数据的所述基准状态的所述k个最近邻的步骤包括:分别计算代表所述MTS的所述基准状态的向量和代表在先前采样时刻处的所述MTS数据的多个向量中的每一个向量之间的距离;以及确定针对先前采样时刻的、相对于代表所述MTS的所述基准状态的向量具有最小距离的k个向量。7.如权利要求6所述的方法,其中计算距离包括计算欧氏距离。8.如权利要求1所述的方法,还包括:通过所述已编程的计算机系统发送数据,所述数据指示所述企业需要处于工作模式中以处理针对所述未来时间范围步长中的至少一个未来时间范围步长的、所述企业计算机系统的所述用户的所述资源请求的网络服务器的所述推荐数量;以及通过与所述已编程的计算机系统通信的一个或多个代理计算机系统指令所述网络服务器,使得所述推荐数量的网络服务器处于工作模式中以处理针对所述至少一个未来时间范围步长的、所述用户的所述资源请求...

【专利技术属性】
技术研发人员:R·W·马丁张宏斌曹健
申请(专利权)人:摩根士丹利服务集团有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1