基于分布式聚类的网络流量时间序列预测方法技术

技术编号:16038694 阅读:133 留言:0更新日期:2017-08-19 20:33
本发明专利技术公开了一种基于分布式聚类的网络流量时间序列预测方法。该方法基于聚类的时序预测方法融合了分布式聚类算法和自回归模型,通过对时序数据进行分片处理获得时间片元组,并将时间片元组使用分布式K‑平均算法(k‑means)聚类算法进行分布式聚类处理,对聚类结果中的每个簇进行正态分布拟合而获得了正态分布N(μ,σ

【技术实现步骤摘要】
基于分布式聚类的网络流量时间序列预测方法
本专利技术涉及网络流量监控
,具体涉及基于分布式聚类的网络流量时间序列预测方法。
技术介绍
在网络流量监控领域中,对网络流量时序数据进行分析和预测非常重要。目前已有的解决方案包括差分移动平均自回归模型(AutoregressiveIntegratedMovingAveragemodel),多层感知器(MultilayerPerceptron),时间递归神经网络(RecurrentNeuralNetwork),长短期记忆人工神经网络(Long-ShortTermMemory),基于聚类时序预测等技术作为可能的解决方案已经有大量的研究。从使用成本、精度、能耗以及可扩展性进行比较和衡量,我们可以分析得到基于聚类的时序预测方法在线上环境具有更好的优越性,聚类方法是数据挖掘中的一个重要的领域,聚类方法极易扩展到分布式系统上,能够成为低成本高效率的优选方案。主流的时序预测算法包括差分移动平均自回归模型,多层感知器,时间递归神经网络,长短期记忆人工神经网络等技术。这些主流技术在用于时序数据平缓,上升下降稳定的情况下效果较好,在分析预测波动较大,随机性较强的网络流量时序数据时,会造成预测效果和预测精度的持续下降。同时,在实际使用中,时间递归神经网络,长短期记忆人工神经网络等技术计算量大,耗时长,不适合用于实时环境。
技术实现思路
本专利技术的目的在于克服现有技术存在的上述不足,提供基于分布式聚类的网络流量时序预测方法,使用基于分布式聚类的预测模型,能够通过横向扩展分布式系统得到性能的提高,成本低,性能好,为了解决预测波动较大的网络流量时序数据,结合自回归模型对预测结果进行修正,极大地减少预测值的误差,提高预测精度。本专利技术通过如下技术方案实现。1.基于分布式聚类的网络流量时序预测方法,其技术方案的实现是分为两个阶段,分别是训练阶段和预测阶段。训练阶段中将历史的数据进行聚类的训练,训练结束后,进入预测阶段,在预测阶段中,将待预测的时间点之间的前缀数据进行计算预测值。2.在训练阶段中将时间序列训练集数据进行预处理,使用滑动窗口的方法,划分成等长的时间片元组,以方便接下来的聚类处理。接着使用K-平均算法将时间片元组进行聚类,得到若干个聚类产生的簇。在每一个簇内,对数据进行正态拟合得到正态分布N(μ,σ2)。3.在预测阶段中,将待预测的时间序列的前缀数据进行预处理,从而得到待预测的定长的时间序列前缀元组。使用欧式距离公式进行计算,找到聚类结果中离前缀元组最近的聚类中心μ,即是网络流量的初步的估计预测值。4.在对多元组<t1,t2,…tn>进行聚类时,使用的是分布式的K-平均算法对时间片元组进行聚类训练得到聚类的结果,而聚类方法的分布式采用映射归纳(Map-Reduce)分布式扩展。5.使用自回归模型对网络流量的初步预测值μ进行修正,修正的方法是按照给定的比例因子,将预测值μ和待预测的时间点的上一个时间节点的实际值进行线性相加,根据自回归模型对聚类中心μ进行修正获得最终的预测值。与现有技术相比,本专利技术具有如下优点和技术效果:(1)在使用K-平均算法的基础上,结合了自回归模型,使得预测结果更加精准。基于聚类的时序预测方法融合了K-平均算法和自回归模型。单独使用K-平均算法进行时间序列数据预测结果较差,预测值通常会产生明显较大的偏差,无法使用在实际业务环境中。自回归模型的使用有很大的局限性,必须使用在具有自相关的时间序列数据上,否则无法进行精确的预测值。基于聚类的时间序列预测方法融合了K-平均算法和自回归模型,克服了各自单独使用时所存在的不足和问题,使得预测结果更为精准。(2)对训练阶段进行分布式计算和处理,保证了对数据进行训练效率,性能高。基于分布式聚类的时间序列预测方法,在训练阶段中,使用分布式的K-平均算法进行分布式聚类,将数据随机分发到不同的节点进行处理,能够得到处理性能的提高。通过聚类操作后,再分布式地根据聚类训练的结果进行正态拟合,这一过程是同时在不同的节点上执行的,能够保证较高地性能,减少时间的使用。(3)对预测阶段进行分布式计算和处理,保证了预测过程的效率基于分布式聚类的时间序列预测方法,在预测阶段中,分布式地将待预测时间点的前缀时序数据进行分布式地预处理,然后分发到节点。在节点接收到前缀时序数据,根据前缀时序数据找到最近的簇,得到初步的预测数值。在整个预测阶段中都是分布式的,因此提高了预测阶段的处理性能。(4)系统架构采用了映射归纳(map-reduce)分布式框架,易扩展,性能高基于分布式聚类的时间序列预测方法可以在已有的流量监控服务器的基础上进行部署和搭建,映射归纳(map-reduce)分布式框架对机器的性能要求不高,极易扩展部署到多个节点上,能够提高系统运行的并行化程度,具有成本低,性能高,运行时间少的优点。附图说明图1为实例中算法部署模型示意图。图2为网络流量时序数据预处理示意图。图3为时间片元组进行分布式聚类示意图。图4为训练阶段流程图。图5为预测阶段流程图。具体实施方式为了使本专利技术的技术方案及优点更加清楚明白,以下结合附图,进行进一步的详细说明,但本专利技术的实施和保护不限于此。如图1、图2、图3、图4所示,基于分布式聚类的时间序列数据预测包含三个部分,1、网络流量时序数据切片;2、时间片元组聚类;3、聚类结果正态分布拟合。本实例的系统的基本组成部分包括数据预处理层,数据分析层,预测值修正层,本算法的系统部署如图1所示,预处理阶段,将时间序列数据根据参数进行切片以元组的形式保存。1.1网络流量时序数据切片通过对网络流量时序数据进行切片,划分若干个不同的元组。通过给定的定长参数,记为look_back,将时序数据进行划分时间片,时间片以多元组的形式<t1,t2,…tn>进行保存,tn表示第n个时间点的具体数值,将时间片元组的下一个时间点的值tn+1作为target,从而进行组合得到二元组其中ti为第i个时间观测值,target是预测值。1.2时间片元组聚类通过步骤1.1得到若干个时间片元组的集合,使用了K-平均算法聚类方法对时间片进行聚类分析。K-平均算法聚类主要分为两个步骤来进行,分别是划分和更新。在划分阶段,将每个元组划分到相应的簇中,使得簇内所有多元组达到簇的聚类中心的平方和达到最小,该平方和记为J。如下公式所示,记第i个聚类中心为记第p个时间序列元组<tp,tp+1,…tp+look_back>为xp,其中每个xp都只被分配到一个确定的簇中,表示第t次迭代的第i个聚类结果的簇,,如果有多个确定的簇,那么可以任意选中一个簇。初始化的时候随机选择k个xp作为初始化的聚类中心在更新阶段,重新计算聚类中每一个簇的平均值,获得新的聚类中心,作为新的均值点。这一算法将在对于所有的xp所归属的簇不再发现变化时,判断为收敛。否则判断为不收敛需要继续重复执行以上两个步骤。因为交替进行的两个步骤使得簇内的目标函数值J逐渐减少,最终到达最小值,函数J表示某个簇的所有xp到聚类中心的距离的平方和。并且分配方案只有有限种,所以算法会收敛于某一最优解或者局部最优解。通过聚类得到了保存预测值的集合,记为settarget。1.3聚类结果正态分布拟合正态分布曲线拟合是一种概率曲线拟本文档来自技高网...
基于分布式聚类的网络流量时间序列预测方法

【技术保护点】
一种基于分布式聚类的网络流量时序预测方法,其特征在于训练阶段中分布式地将时间序列训练集数据进行预处理,划分成定长的时间片元组,使用K‑平均算法聚类算法将时间片元组进行聚类,将聚类结果进行正态拟合得到正态分布N(μ,σ

【技术特征摘要】
1.一种基于分布式聚类的网络流量时序预测方法,其特征在于训练阶段中分布式地将时间序列训练集数据进行预处理,划分成定长的时间片元组,使用K-平均算法聚类算法将时间片元组进行聚类,将聚类结果进行正态拟合得到正态分布N(μ,σ2);接着在预测阶段中分布式地将待预测的时间序列数据进行处理而得到待预测的时间序列前缀元组,使用欧式距离公式得到前缀元组在聚类结果中最近的聚类中心μ,即是网络流量的初步估计预测值,根据自回归(AR)模型对聚类中心μ进行修正获得最终的预测值。2.根据权利要求1所述的基于分布式聚类的网络流量时序预测方法,其特征在于对网络流量时序数据的训练阶段的预处理,根据给定的元组的长度参数,将时序数据进行划分为定长的时间片,时间片以多元组的形式<t1,t2,…tn>进行保存,并将每个时间片元组对应的下一个时间点的值,记为target,将时间片多元组和对应的tar...

【专利技术属性】
技术研发人员:刘发贵余信威
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1